批量插入10万条数据
思路

批量插入的时候,一般有两种思路:
- 用一个 for 循环,把数据一条一条的插入(这种需要开启批处理)。
- 生成一条插入 sql,类似这种
insert into user(username,address) values('aa','bb'),('cc','dd')...
。
主要从两个方面来考虑这个问题:
- SQL本身的执行效率
- 网络I/O
第一种方案
使用for循环:
- 这种方案的优势在于,JDBC 中的 PreparedStatement 有预编译功能,预编译之后会缓存起来,后面的 SQL 执行会比较快并且 JDBC 可以开启批处理,这个批处理执行非常给力。
- 劣势在于,很多时候我们的 SQL 服务器和应用服务器可能并不是同一台,所以必须要考虑网络 IO,如果网络 IO 比较费时间的话,那么可能会拖慢 SQL 执行的速度。
当使用for循环一条条插入的时候,需要开启批处理模式(BATCH),这样前前后后就只用一个SqlSession,如果不采用批处理模式, 反反复复的获取Connection以及释放Connection会耗费大量时间,效率很低。
第二种方案
生成一条sql插入:
- 这种方案的优势在于只有一次网络 IO,即使分片处理也只是数次网络 IO,所以这种方案不会在网络 IO 上花费太多时间。
- 当然这种方案有好几个劣势,一是 SQL 太长了,甚至可能需要分片后批量处理;二是无法充分发挥 PreparedStatement 预编译的优势,SQL 要重新解析且无法复用;三是最终生成的 SQL 太长了,数据库管理器解析这么长的 SQL 也需要时间。
最终要考虑的就是在网络 IO 上花费的时间,是否超过了 SQL 插入的时间?这是我们要考虑的核心问题。
根据实际情况选择相应的批量插入手段。
Mybatis Plus的做法
其实 MyBatis Plus 里边也有一个批量插入的方法 saveBatch,我们来看看它的实现源码:
|
这里拿到的 sqlStatement 就是一个 INSERT_ONE
,即一条一条插入。
executeBatch 方法:
public static <E> boolean executeBatch(Class<?> entityClass, Log log, Collection<E> list, int batchSize, BiConsumer<SqlSession, E> consumer) { |
这里注意 return
中的第三个参数,是一个 lambda
表达式,这也是 MP 中批量插入的核心逻辑,可以看到,MP 先对数据进行分片(默认分片大小是 1000),分片完成之后,也是一条一条的插入。继续查看 executeBatch
方法,就会发现这里的 sqlSession
其实也是一个批处理的 sqlSession
,并非普通的 sqlSession
。