使用的是PostgreSQL
在做大数据量(十万级)导入时,某些字段和数据库表里数据(千万级)重复的需要排除掉,把表数据查询出来用程序的方式判断去重效率很低,于是考虑用临时表。
- 先把新数据插入到临时表里,临时表结构和原始表一致。
- 用SQL的方式把不重复的数据DataA查询出来。
- 把DataA插入到原始表里。
因为不重复的数据我还要做一些其他的处理,所以查出来DataA,若不需做特殊处理可直接使用 insert into select
的方式将第2步的数据插入到原始表,然后清空临时表
大约 2 分钟