溫故而知新
業(yè)務(wù)很簡單:需要批量插入一些數(shù)據(jù)霹陡,數(shù)據(jù)來源可能是其他數(shù)據(jù)庫的表,也可能是一個(gè)外部excel的導(dǎo)入
那么問題來了止状,是不是每次插入之前都要查一遍烹棉,看看重不重復(fù),在代碼里篩選一下數(shù)據(jù)怯疤,重復(fù)的就過濾掉呢浆洗?
向大數(shù)據(jù)數(shù)據(jù)庫中插入值時(shí),還要判斷插入是否重復(fù)集峦,然后插入伏社。如何提高效率
看來這個(gè)問題不止我一個(gè)人苦惱過。
解決的辦法有很多種塔淤,不同的場景解決方案也不一樣摘昌,數(shù)據(jù)量很小的情況下,怎么搞都行凯沪,但是數(shù)據(jù)量很大的時(shí)候第焰,這就不是一個(gè)簡單的問題了。
幾百萬的數(shù)據(jù)妨马,不可能查出來挺举,做去重處理
說一下我Google到的解決方案
1、insert ignore into
當(dāng)插入數(shù)據(jù)時(shí)烘跺,如出現(xiàn)錯(cuò)誤時(shí)湘纵,如重復(fù)數(shù)據(jù),將不返回錯(cuò)誤滤淳,只以警告形式返回梧喷。所以使用ignore請確保語句本身沒有問題,否則也會(huì)被忽略掉。例如:
INSERT IGNORE INTO user (name) VALUES ('telami')
這種方法很簡便铺敌,但是有一種可能汇歹,就是插入不是因?yàn)橹貜?fù)數(shù)據(jù)報(bào)錯(cuò),而是因?yàn)槠渌驁?bào)錯(cuò)的偿凭,也同樣被忽略了~
2产弹、on duplicate key update
當(dāng)primary或者unique重復(fù)時(shí),則執(zhí)行update語句弯囊,如update后為無用語句痰哨,如id=id,則同1功能相同匾嘱,但錯(cuò)誤不會(huì)被忽略掉斤斧。
例如,為了實(shí)現(xiàn)name重復(fù)的數(shù)據(jù)插入不報(bào)錯(cuò)霎烙,可使用一下語句:
INSERT INTO user (name) VALUES ('telami') ON duplicate KEY UPDATE id = id
這種方法有個(gè)前提條件撬讽,就是,需要插入的約束悬垃,需要是主鍵或者唯一約束(在你的業(yè)務(wù)中那個(gè)要作為唯一的判斷就將那個(gè)字段設(shè)置為唯一約束也就是unique key)锐秦。
3、insert … select … where not exist
根據(jù)select的條件判斷是否插入盗忱,可以不光通過primary 和unique來判斷,也可通過其它條件羊赵。例如:
INSERT INTO user (name) SELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)
這種方法其實(shí)就是使用了mysql的一個(gè)臨時(shí)表的方式趟佃,但是里面使用到了子查詢,效率也會(huì)有一點(diǎn)點(diǎn)影響昧捷,如果能使用上面的就不使用這個(gè)闲昭。
4、replace into
如果存在primary or unique相同的記錄靡挥,則先刪除掉序矩。再插入新記錄。
REPLACE INTO user SELECT 1, 'telami' FROM books
這種方法就是不管原來有沒有相同的記錄跋破,都會(huì)先刪除掉然后再插入簸淀。
實(shí)踐
選擇的是第二種方式
<insert id="batchSaveUser" parameterType="list"> insert into user (id,username,mobile_number) values <foreach collection="list" item="item" index="index" separator=","> ( #{item.id}, #{item.username}, #{item.mobileNumber} ) </foreach> ON duplicate KEY UPDATE id = id </insert>
這里用的是Mybatis,批量插入的一個(gè)操作毒返,mobile_number已經(jīng)加了唯一約束租幕。這樣在批量插入時(shí),如果存在手機(jī)號相同的話拧簸,是不會(huì)再插入了的劲绪。
來源:http://www.telami.cn/2018/when-mysql-batch-inserts-and-how-to-not-insert-duplicate-data/