兩千萬數(shù)據(jù)優(yōu)化整理&遷移

最近有一張2000W條記錄的數(shù)據(jù)表需要優(yōu)化和遷移娜谊。2000W數(shù)據(jù)對于MySQL來說很尷尬谍珊，因為合理的創(chuàng)建索引速度還是挺快的谊囚，再怎么優(yōu)化速度也得不到多大提升。不過這些數(shù)據(jù)有大量的冗余字段和錯誤信息丹擎，極不方便做統(tǒng)計和分析尾抑。所以我需要創(chuàng)建一張新表歇父，把舊表中的數(shù)據(jù)一條一條取出來優(yōu)化后放回新表；

一. 清除冗余數(shù)據(jù)再愈，優(yōu)化字段結(jié)構(gòu)

2000W數(shù)據(jù)中榜苫，能作為查詢條件的字段我們是預(yù)知的。所以將這部分?jǐn)?shù)據(jù)單獨創(chuàng)建新的字段翎冲，對于有規(guī)則的數(shù)據(jù)合理改變字段結(jié)構(gòu)垂睬，比如身份證就是varchar(18)。對于不重要的數(shù)據(jù)我們合并后存在一個結(jié)構(gòu)為text的字段府适。

對于一些有關(guān)聯(lián)的數(shù)據(jù)我們需要計算，常見的比如身份證種能獲取到準(zhǔn)確的性別肺樟，出生地檐春、生日、年齡么伯。

二. 數(shù)據(jù)遷移

我們從數(shù)據(jù)庫中取出一條舊數(shù)據(jù)疟暖，再通過計算處理后得到想要的新數(shù)據(jù)，最后將新數(shù)據(jù)插入新表田柔。不過在獲取新數(shù)據(jù)時遇到如下問題俐巴。

數(shù)據(jù)量太大，無法一次獲扔脖（2000W數(shù)據(jù)扔到內(nèi)存挺可怕的）欣舵；

我們可以通過MySQL的limit語法分批獲取。比如每次獲取50000缀磕，SQL語句如下：
```
select * from table_name limit 15000000,50000;
```
通過這種方法能解決數(shù)據(jù)量太大的問題缘圈，但是隨著limit的第一個參數(shù)越來越大，查詢速度會慢的嚇人（上面這條SQL執(zhí)行會花35秒）袜蚕。時間就是生命糟把，于是我們開始優(yōu)化SQL語句，優(yōu)化后變成下面這樣：
```
select * from table_name order by desc limit 5000000,50000;
```
可通過二分法拆分2000W數(shù)據(jù)牲剃，當(dāng)執(zhí)行到1000W數(shù)據(jù)時遣疯，將數(shù)據(jù)倒序。優(yōu)化后SQL執(zhí)行效率顯著提升凿傅，從35秒降到9秒缠犀；

不過還是很慢，時間就是生命……還好我們有自增ID（創(chuàng)建數(shù)據(jù)表第一條定律聪舒，一定要有自增字段）夭坪，優(yōu)化后的SQl如下：
```
1. select * from table_name where id>15000000 and id<15050000；
2. select * from table_name where id>15000000 limit 50000; 
```
為了直觀演示过椎，我寫了兩條功能一樣的SQL室梅。相比第一條，第二條的limit會導(dǎo)致SQL的索引命中變差，效率同樣也會下降亡鼠。第一條SQL的執(zhí)行時間是2毫秒赏殃，第二條執(zhí)行時間5毫秒（我取的平均值）。每次數(shù)據(jù)的查詢速度直接從35秒降到2毫秒……
數(shù)據(jù)量太大并且數(shù)據(jù)無法預(yù)估间涵，某些特殊數(shù)據(jù)會導(dǎo)致數(shù)據(jù)導(dǎo)入失斎嗜取；

我們有三種方案去將新數(shù)據(jù)存入新表勾哩，分別如下：
1. 一條一條插入數(shù)據(jù)抗蠢；
  
  開始肯定會想這種方案一定不行，因為每次插入都會有一次數(shù)據(jù)庫IO操作思劳。但是該方案有個好處是能及時發(fā)現(xiàn)有問題的數(shù)據(jù)迅矛，修改后再繼續(xù)執(zhí)行；
  在Oracle中使用『綁定變量』能帶來性能提升潜叛，正好MySQL也提供了『綁定變量』的功能秽褒。于是在不改變邏輯的情況下，嘗試優(yōu)化數(shù)據(jù)存儲速度威兜。代碼如下：
```
public function actionTest(array $data)
{
    $mysqli = new mysqli("192.168.1.106", "username", "password", "test");
    $sql = "insert into table_name(name,identity) values (?,?)";

    $stmt = $connection->prepare($sql);
    $name = "";
    $identity = "";
    //使用綁定變量
    $stmt->bind_param("si", $name, $identity);
    foreach($data as $val)
    {
        $name = $val['name'];
        $identity = $val['card_id'];
        //執(zhí)行
        $stmt->execute();
    }
    $stmt->close();
}
```
最后效果不怎么好销斟，MySQL的『綁定變量』并沒帶來明顯的速度提升，不過能有效的防止SQL注入椒舵；
1. 一次插入50000條數(shù)據(jù)蚂踊；
  
  這是我最后選中的方案，一是能及時發(fā)現(xiàn)有問題的數(shù)據(jù)笔宿，二是導(dǎo)入數(shù)據(jù)非常穩(wěn)定悴势。就像支持?jǐn)帱c續(xù)傳一樣，每一步都能看到效果措伐。在執(zhí)行腳本時特纤，也能同步開始寫分析邏輯；
2. 組裝成SQL文件侥加，最后統(tǒng)一導(dǎo)入捧存；
  
  組裝一個大的SQL文件，最后通過MySQL自帶的工具導(dǎo)入也是極好的担败。但如果有一條SQL有問題昔穴，你可能需要重跑一次腳本。因為在9G大小的文本文件中修改一個符號是很痛苦的事情……

三. 總結(jié)

通過各種優(yōu)化提前，最后將腳本執(zhí)行時間縮短到了20分鐘內(nèi)吗货。優(yōu)化后數(shù)據(jù)質(zhì)量得到了較高保證，下次將嘗試2億數(shù)據(jù)的優(yōu)化&遷移……

更多相關(guān)文章請移步我的博客-原文鏈接：兩千萬數(shù)據(jù)優(yōu)化整理&遷移

喜歡編程的朋友可以關(guān)注我的個人公眾號狈网，保證每周三篇原創(chuàng)宙搬。

程序員編程日志

最后編輯于：2019.01.27 23:34:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末笨腥，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子勇垛，更是在濱河造成了極大的恐慌脖母，老刑警劉巖，帶你破解...
沈念sama閱讀 221,273評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件闲孤，死亡現(xiàn)場離奇詭異谆级，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)讼积，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,349評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門肥照，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人勤众，你說我怎么就攤上這事舆绎。” “怎么了决摧？”我有些...
開封第一講書人閱讀 167,709評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵亿蒸，是天一觀的道長凑兰。經(jīng)常有香客問我掌桩，道長，這世上最難降的妖魔是什么姑食？我笑而不...
開封第一講書人閱讀 59,520評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任波岛，我火速辦了婚禮，結(jié)果婚禮上音半，老公的妹妹穿的比我還像新娘则拷。我一直安慰自己，他們只是感情好曹鸠，可當(dāng)我...
茶點故事閱讀 68,515評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布煌茬。她就那樣靜靜地躺著，像睡著了一般彻桃。火紅的嫁衣襯著肌膚如雪坛善。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,158評論 1贊 308
城市分裂傳說
那天邻眷，我揣著相機(jī)與錄音眠屎，去河邊找鬼。笑死肆饶，一個胖子當(dāng)著我的面吹牛改衩，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播驯镊，決...
沈念sama閱讀 40,755評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼葫督，長吁一口氣：“原來是場噩夢啊……” “哼竭鞍！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起候衍，我...
開封第一講書人閱讀 39,660評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤笼蛛，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后蛉鹿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滨砍，經(jīng)...
沈念sama閱讀 46,203評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,287評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年妖异，在試婚紗的時候發(fā)現(xiàn)自己被綠了惋戏。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,427評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡他膳，死狀恐怖响逢，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情棕孙，我是刑警寧澤舔亭，帶...
沈念sama閱讀 36,122評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站蟀俊，受9級特大地震影響钦铺，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肢预，卻給世界環(huán)境...
茶點故事閱讀 41,801評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一矛洞、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧烫映，春花似錦沼本、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,272評論 0贊 23
一樁弒父案抽兆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至族淮，卻和暖如春辫红，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背瞧筛。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工厉熟，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人较幌。一個月前我還...
沈念sama閱讀 48,808評論 3贊 376
代替公主和親
正文我出身青樓揍瑟，卻偏偏與公主長得像，于是被迫代替她去往敵國和親乍炉。傳聞我的和親對象是個殘疾皇子绢片，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,440評論 2贊 359

兩千萬數(shù)據(jù)優(yōu)化整理&遷移

一. 清除冗余數(shù)據(jù)再愈，優(yōu)化字段結(jié)構(gòu)

二. 數(shù)據(jù)遷移

三. 總結(jié)

推薦閱讀更多精彩內(nèi)容