R 聯(lián)合SQLite數(shù)據(jù)庫和Spark分析大數(shù)據(jù)集

SQLite 數(shù)據(jù)庫使用

1.下載SQLite數(shù)據(jù)庫电谣,并配置環(huán)境變量盯漂,或者再下載個SQLiteStudio進(jìn)行編輯管理蛔钙;
2.打開powershell或者cmd,運行命令行sqlite.exe感耙,進(jìn)入SQLite褂乍;
3.可以利用SQLite語句進(jìn)行新建數(shù)據(jù)庫和表格,進(jìn)行數(shù)據(jù)操作和轉(zhuǎn)換抑月。

R里面安裝DBI包树叽,連接SQLite數(shù)據(jù)庫舆蝴,進(jìn)行操作

library(DBI)
con <- dbConnect(RSQLite::SQLite(), ":memory:")#新建位于內(nèi)存中的連接谦絮,生成的數(shù)據(jù)都會儲存再內(nèi)存中,或者:
con <- dbConnect(RSQLite::SQLite(),"./test.db")#新建本地數(shù)據(jù)庫或讀取本地數(shù)據(jù)庫

R安裝sparkly包,創(chuàng)建spark連接

library(sparklyr)
library(dplyr)#用于數(shù)據(jù)分析
sc <- spark_connect(master = "local")

大數(shù)據(jù)集分析步驟

1.利用R生成后者下載數(shù)據(jù)

dbWriteTable(con_b, "mtcars", mtcars, overwrite = TRUE)#將mtcars數(shù)據(jù)集寫入名叫mtcars的表格中洁仗,并存入sqlite數(shù)據(jù)庫db文件中,一般一個db文件最多可以存儲1TB數(shù)據(jù)

2.利用SQLite命令語句將表格數(shù)據(jù)存為csv文件

sqlite.exe test.db --打開本地數(shù)據(jù)庫文件或者已經(jīng)存儲了數(shù)據(jù)的數(shù)據(jù)庫文件
.tables ---查看test.db數(shù)據(jù)庫文件里有哪些表格
.header on --顯示表頭
.mode.csv --設(shè)置輸出文件格式
.output test.csv --輸出文件名
.select * from test --選擇輸出的內(nèi)容
.quit --退出sqlite
注:--后面是注釋內(nèi)容

3.利用spark_read_csv()讀取csv大文件层皱,注意文件必須as.data.frame()后才能讀取

總結(jié):這樣利用spark連接將幾十G甚至幾百G的文件分割成幾個部分,再利用R連接后處理赠潦,其中sqlite作為中介轉(zhuǎn)存數(shù)據(jù)叫胖,可以處理超過R自身內(nèi)存的大數(shù)據(jù)集。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末她奥,一起剝皮案震驚了整個濱河市瓮增,隨后出現(xiàn)的幾起案子怎棱,更是在濱河造成了極大的恐慌,老刑警劉巖绷跑,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拳恋,死亡現(xiàn)場離奇詭異,居然都是意外死亡砸捏,警方通過查閱死者的電腦和手機(jī)谬运,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垦藏,“玉大人梆暖,你說我怎么就攤上這事〉嗫ィ” “怎么了轰驳?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長弟灼。 經(jīng)常有香客問我滑废,道長,這世上最難降的妖魔是什么袜爪? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任蠕趁,我火速辦了婚禮,結(jié)果婚禮上辛馆,老公的妹妹穿的比我還像新娘俺陋。我一直安慰自己,他們只是感情好昙篙,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布腊状。 她就那樣靜靜地躺著,像睡著了一般苔可。 火紅的嫁衣襯著肌膚如雪缴挖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天焚辅,我揣著相機(jī)與錄音映屋,去河邊找鬼。 笑死同蜻,一個胖子當(dāng)著我的面吹牛棚点,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播湾蔓,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼瘫析,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起贬循,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤咸包,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后杖虾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诉儒,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年亏掀,在試婚紗的時候發(fā)現(xiàn)自己被綠了忱反。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡滤愕,死狀恐怖温算,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情间影,我是刑警寧澤注竿,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站魂贬,受9級特大地震影響巩割,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜付燥,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一宣谈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧键科,春花似錦闻丑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至饭玲,卻和暖如春侥祭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背茄厘。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工矮冬, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蚕断。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓欢伏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親亿乳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    草里有只羊閱讀 18,291評論 0 85
  • 爬蟲爬取的數(shù)據(jù)要經(jīng)過數(shù)據(jù)存儲步驟存儲在磁盤上障陶,對一些數(shù)據(jù)量較小的項目,數(shù)據(jù)可以暫時以磁盤文件的形式存儲聊训,如果數(shù)據(jù)量...
    zhile_doing閱讀 250評論 0 0
  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,446評論 0 13
  • ORA-00001: 違反唯一約束條件 (.) 錯誤說明:當(dāng)在唯一索引所對應(yīng)的列上鍵入重復(fù)值時抱究,會觸發(fā)此異常。 O...
    我想起個好名字閱讀 5,176評論 0 9
  • 聚焦在 Twitter 上關(guān)于Apache Spark的數(shù)據(jù)带斑,目標(biāo)是準(zhǔn)備將來用于機(jī)器學(xué)習(xí)和流式處理應(yīng)用的數(shù)據(jù)鼓寺。 ...
    abel_cao閱讀 2,693評論 1 12