MySQL每秒57萬的寫入，帶你飛~

MySQL 大數據百度雲 JAVA架構 2019-04-27

本文作者：吳炳錫

來源：https://yq.aliyun.com/articles/278034

一、需求

一個朋友接到一個需求，從大數據平臺收到一個數據寫入在20億+，需要快速地加載到MySQL中，供第二天業務展示使用。

二、實現再分析

對於單表20億，在MySQL運維，說真的這塊目前涉及得比較少，也基本沒什麼經驗，但對於InnoDB單表Insert 如果內存大於數據情況下，可以維持在10萬-15萬行寫入。但很多時間我們接受的項目還是數據超過內存的。這裡使用XeLabs TokuDB做一個測試。

三、XeLabs TokuDB介紹

項目地址： https://github.com/XeLabs/tokudb

相對官方TokuDB的優化：

內置了jemalloc 內存分配；
引入更多的內置的TokuDB性能指標；
支持Xtrabackup備份；
引入ZSTD壓縮算法；
支持TokuDB的binlog_group_commit特性；

四、測試表

TokuDB核心配置：

表結構：

利用load data寫入數據：

計算一下每秒寫入速度：

文件大小：

實際文件8.5G，寫入TokuDB大小3.5G，只是接近於一半多點的壓縮量。對於20億數據寫入，實際測試在58分鐘多點就可以完成。可以滿足實際需求，另外對於磁盤IO比較好的機器（SSD類盤，雲上的雲盤），如果內存和數據差不多情況，這量級數據量測試在Innodb裡需要添加自增列，可以在3個小多一點完成。從最佳實戰上來看，Innodb和TokuDB都寫入同樣的數據，InnoDB需要花大概是TokuDB3-4倍時間。文件大小區別，同樣20億數據：

文件大小在5倍大小的區別。

測試結論：

利用TokuDB在某雲環境中8核8G內存，500G高速雲盤環境，多次測試可以輕鬆實現57萬每秒的寫入量。

另外測試幾種場景也供大家參考：如果在TokuDB中使用帶自增的主鍵，主鍵無值讓MySQL內部產生寫入速度，下降比較明顯，同樣寫入2億數據，帶有自建主鍵：

同樣的數據寫入在主鍵自增無值產生時，不能使用TokuDB的 Bulk loader data特性，相當於轉換為了單條的Insert實現，所以效果上慢太多。

關於TokuDB Bulk Loader前提要求，這個表是空表，對於自增列，如自增列有值的情況下，也可以使用。建議實際使用中，如果自增列有值的情況下，可以考慮去除自增屬性，改成唯一索引，這樣減少自增的一些處理邏輯，讓TokuDB能跑地更快一點。另外在Bulk Loader處理中為了追求更快速的寫入，壓縮方面並不是很好。

關於TokuDB Bulk Loader :

https://github.com/percona/PerconaFT/wiki/TokuFT-Bulk-Loader

五、測試環境說明

測試使用CentOS7環境，編譯的XeLabs TokuDB版本百度雲地址：

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'30周Java學習計劃清單，分享神級教程帶你飛！確定不整一波？'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和JavaSE的學習同步，建議大家研究一下數據結構與算...

Java 算法數據結構程序員 Eclipse 人生第一份工作設計編程語言技術設計模式 Apache 讀書大數據小遊戲集成開發環境 2019-09-18

'Python批量刪除mysql中千萬級大量數據'

"場景描述線上 mysql 數據庫裡面有張表保存有每天的統計結果，每天有1千多萬條，這是我們意想不到的，統計結果咋有這麼多。運維找過來，磁盤佔了 200G ，最後問了運營，可以只保留最近3天的，前面的數據，只能刪了。刪，怎麼刪？關注，轉發，私信小編“01”即可免費領取Pyt...

Python MySQL 數據庫腳本語言 2019-09-15

'「接軌示範區」小編帶你感受：青浦——智能製造和信息技術產業高地'

"上海市青浦區，位於上海西郊，是上海唯一與江浙同時接壤的行政區，背靠虹橋樞紐，面向江浙廣闊腹地，區域總面積668.52平方公里，常住人口120.5萬人。近年來，該區以建設更高能級、更高品質的“上海之門”為城市目標，持續用力做好“生態建設、特色產業、鄉村振興”三篇大文章，著力...

技術智能家居上海人工智能哈爾濱工業大學機器人知識產權無人機大數據十三五虛擬現實創業通信原汁原味的德系SUV 文章歷史 2019-09-14

'7旬老太網戀，給“老公”轉8萬被攔，大吼民警：我要當街投訴你'

"大數據時代，詐騙手段不斷翻新，騙術層出不窮，防不勝防。最常見的就是電信網絡詐騙手段。據新民晚報9月9日報道，近日上海一位7旬老太太，因為網戀陷入了電信網絡詐騙，不但不自知，面對警察的阻攔，還當街訓斥。事出有因，老太太是如何被察覺到上當受騙的呢？這一切，還得感謝銀行職員的敏...

不完美媽媽銀行戀愛大數據新聞上海跳槽那些事兒電信 2019-09-14

'Flink 1.9 實戰：使用 SQL 讀取 Kafka 並寫入 MySQL'

"SqlSubmit 的實現筆者一開始是想用 SQL Client 來貫穿整個演示環節，但可惜 1.9 版本 SQL CLI 還不支持處理 CREATE TABLE 語句。所以筆者就只好自己寫了個簡單的提交腳本。後來想想，也挺好的，可以讓聽眾同時瞭解如何通過 SQL 的方式...

SQL MySQL 腳本語言 JSON 2019-09-13

'同樣的價格該選誰？帶你看看漢蘭達和途觀L誰更值得買'

"買車首選看什麼？動力、配置、外觀、安全、價錢，各種要求五花八門，哪款車能滿足您的需要呢。今天，小新運用大數據技術，挑選了兩款大家經常放在一起PK的車型漢蘭達和途觀L，那我們就來看看究竟哪款更適合您。在本次對比中，我們挑選了經常被車主們放在一起PK的兩款車型來做對比...

豐田漢蘭達大眾途觀途觀L 大數據良心國貨大賞設計技術 2019-09-13

'5G大數據時代，熊貓付帶你進軍新零售'

"實體零售的困境和短板梳理：1：客流量固定2：必須有好的地址位置3：庫存積壓（庫存管理），進貨成本高4：門店的數據應用仍一片空白，消費者畫像不清晰沒旺鋪就沒什麼客戶？熊貓付第一個不同意！傳統實體店面臨著冷清的環境、稀疏的客流、下滑的業績，已經為當下實體零售業普遍寫照，未來何...

大數據市場營銷我的第一部5G手機大熊貓技術萬物嚐鮮節淘寶網美團網 2019-09-13

'MySQL索引失效和EXPLAIN工具：你建立的索引真的起到作用了嗎？'

"在我們使用MySQL的過程中，隨著數據量越來越大，查詢顯得有些吃力，這時候就要針對查詢就行優化，針對查詢優化，通過給字段添加索引可以提高數據的讀取速度，提高項目的併發能力和抗壓能力。在上一篇我們講了給數據庫中的表添加索引，來提高它的查詢速度，但是會有另外一種情況出現，那就...

MySQL SQL 數據庫 2019-09-11

'揭祕土老闆最愛的現金貸系統：你花的30萬值得嗎？'

"“阿爾法象系統，官方直籤，還有6個月，按時間租用，功能齊全，到期可續費。”日前，一則現金貸系統轉讓帖掛在了二手交易平臺閒魚上。發帖者告訴新流財經，年前租借的這套現金貸系統，一年費用38000元，系統內有風控模塊，進件會有評分結果，可以人工審核，根據評分結果自行決定是否放款...

SaaS 大數據跳槽那些事兒阿里雲計算中國中央電視臺 315晚會法律人生第一份工作 2019-09-10

'香港保險業寒冬？代理人收入銳減！資深持牌人Mark帶你瞭解危與機'

"香港保險業寒冬？金融代理人收入銳減！資深持牌人Mark帶你瞭解危與機暨《Mark扯談堂》第二期：多維度深度剖析財富管理行業在iTrade重磅公開課《Mark扯談堂》第一期，美信聯邦創始人Mark分享了創業經歷及行業認知， Mark提出我們必須具備理性邏輯的分析能力以及構建...

香港頭號大贏家| 理財大賽第二季中國人壽保險銀行投資大數據金融經濟技術創業人壽保險中國銀聯人生第一份工作區塊鏈 2019-09-09

'Python Django帶你構建Web應用，13個常見問題彙總'

"1、django+python27+mysql的生產環境，想換成python3，請問需要哪些注意事項？生產環境數據不想被破壞，所以不敢輕易下手，希望大神指點一下？關於python升級：可以使用Python3自帶工具2to3，將python2的代碼轉換為python3。少部...

Django Python MySQL 數據庫 Java 腳本語言 C語言軟件中央處理器 2019-09-07

'還在糾結學Python還是Java？8張圖帶你全面對比分析，幫你解讀'

"Java和Python兩門語言都是目前非常熱門的語言，可謂北喬峰南慕容，二者不分上下，棋逢對手。但是對於初學者來說，非常困惑，因為時間和精力有限，上手必須要先學一門，到底選那個好呢，今天3分鐘帶你透徹瞭解。1.運行速度Java是靜態語言靜態編譯的，速度上要比Python快...

Python Java 數據庫人工智能工程師機器學習 Android Node.js 人生第一份工作大數據 Kotlin MongoDB 程序員網絡爬蟲 Redis 2019-09-07

'“雅安智造”將亮相科博會帶你提前感受本土 “黑科技”'

"9月5日，由科技部、省政府主辦，以“科技創新·深化改革·開放合作”為主題的第七屆中國（綿陽）科技城國際科技博覽會將在綿陽拉開帷幕。此次科博會分高新技術產業館、國際交流合作館、區域發展成就館、智能技術裝備館、科技創新企業展區、無人駕駛設備展區、航空運動體驗區、VR體驗服務區...

雅安生物技術技術四川大數據綿陽知識產權無人機文化成都人生第一份工作陶瓷經濟農產品航空四川大學大學 2019-09-06

'被ZAO帶火的AI技術，未來還會怎樣影響你的生活？'

"天下網商記者黃天然AI設計師“鹿班”每秒可設計海報8000張，賦能30萬商家備戰“雙十一”；光伏電池生產商天合光能運用人工智能算法將A品率提升7%，創造利潤數千萬；AI幫助優酷分析輿情選出爆款影視劇IP，打造了10天播放量超過60億的《微微一笑很傾城》……如今，人工智能...

技術 2019世界人工智能大會算法雲計算經濟阿里雲計算大數據阿里巴巴集團物聯網機器人語音識別技術人機交互智能手機劉鬆物理跳槽那些事兒微微一笑很傾城設計金融設計師人臉識別優酷土豆自然語言處理 2019-09-05

'新生大數據，帶你瞭解西安郵電大學不一樣的2019級小萌新'

"9月1日，西安郵電大學正式迎來了2019級"萌新"們，4005人帶著行囊、帶著憧憬、帶著家人滿滿的愛與期冀，從五湖四海而來，相聚於古城西安。校領導帶領相關職能部門負責人，來長安和雁塔校區各迎新點看望2019級新生及家長，慰問工作在迎新一線的師生。迎新工作井然有序，受到了廣...

西安大學大數據陝西人生第一份工作黑龍江省長安 2019-09-05

'帶你走進“政務大腦”'

"在最近幾天召開的“2019世界人工智能大會”上，脈策（MDT）參與的上海市“靜安政務大腦”驚豔亮相，一度佔據了大會各種新聞的“C位”。今天我們就帶大家看看這個“大腦”。傳統的城市管理，因為沒有數字化建設的基礎，很難做到全局優化。今天當我們把整個城市，從人的衣食住行到人的...

上海人工智能想象偉大的一平方公里體育設計技術交通大數據雲計算幼兒園新聞文化算法 2019-09-01

'來啦！梁平智造亮相智博會，帶你邂逅不容錯過的精彩'

"為經濟賦能，為生活添彩！今天（8月26日）2019中國國際智能產業博覽會（以下簡稱“智博會”）在重慶國際博覽中心拉開序幕一大波高科技集中亮相梁平帶去了怎樣的驚喜？柚小妹帶你去“打望”智博會以“智能化：為經濟賦能，為生活添彩”為主題，聚焦“數字產業化、產業數字化”，圍繞...

技術重慶經濟人生第一份工作梁平大數據 2019-08-30

'清華學霸總結26周Java學習計劃，免費神級教程帶你飛'

"我一直相信：一切不能實實在在幫助到大家的資料，都是耍流氓我的目標是：做一次又一次真正有價值、愉悅感十足的分享Java+大數據+互聯網架構，不斷深入前沿領域需要本文資料可以關注、私信小編“資料”獲取！！！學習Java，首先要學JavaSE，這是毋庸置疑的。與此同時，和Ja...

Java Eclipse 算法數據結構程序員清華大學人生第一份工作設計編程語言技術 Apache 設計模式讀書集成開發環境小遊戲大數據 2019-08-30

'王欣帶著他《靈鴿》來了，你是否都欠他一個會員？'

"靈鴿APP是誰創立的？相信很多人都知道王欣這個名字“王欣“，靈鴿APP的創造者，增加快播的創始人.靈鴿是幹什麼的呢？靈鴿是致力於通過人工智能、大數據、區塊鏈等技術，實現社會資源的最優調配，為用戶提供覆蓋生活、娛樂等多個方面的共享服務軟件產品。目前已完成融資4000萬美元。...

跳槽那些事兒人生第一份工作創業人工智能技術大數據 2019-08-29

推薦中...