SQLite 數(shù)據(jù)庫使用
1.下載SQLite數(shù)據(jù)庫电谣,并配置環(huán)境變量盯漂,或者再下載個SQLiteStudio進(jìn)行編輯管理蛔钙;
2.打開powershell或者cmd,運行命令行sqlite.exe感耙,進(jìn)入SQLite褂乍;
3.可以利用SQLite語句進(jìn)行新建數(shù)據(jù)庫和表格,進(jìn)行數(shù)據(jù)操作和轉(zhuǎn)換抑月。
R里面安裝DBI包树叽,連接SQLite數(shù)據(jù)庫舆蝴,進(jìn)行操作
library(DBI)
con <- dbConnect(RSQLite::SQLite(), ":memory:")#新建位于內(nèi)存中的連接谦絮,生成的數(shù)據(jù)都會儲存再內(nèi)存中,或者:
con <- dbConnect(RSQLite::SQLite(),"./test.db")#新建本地數(shù)據(jù)庫或讀取本地數(shù)據(jù)庫
R安裝sparkly包,創(chuàng)建spark連接
library(sparklyr)
library(dplyr)#用于數(shù)據(jù)分析
sc <- spark_connect(master = "local")
大數(shù)據(jù)集分析步驟
1.利用R生成后者下載數(shù)據(jù)
dbWriteTable(con_b, "mtcars", mtcars, overwrite = TRUE)#將mtcars數(shù)據(jù)集寫入名叫mtcars的表格中洁仗,并存入sqlite數(shù)據(jù)庫db文件中,一般一個db文件最多可以存儲1TB數(shù)據(jù)
2.利用SQLite命令語句將表格數(shù)據(jù)存為csv文件
sqlite.exe test.db --打開本地數(shù)據(jù)庫文件或者已經(jīng)存儲了數(shù)據(jù)的數(shù)據(jù)庫文件
.tables ---查看test.db數(shù)據(jù)庫文件里有哪些表格
.header on --顯示表頭
.mode.csv --設(shè)置輸出文件格式
.output test.csv --輸出文件名
.select * from test --選擇輸出的內(nèi)容
.quit --退出sqlite
注:--后面是注釋內(nèi)容
3.利用spark_read_csv()讀取csv大文件层皱,注意文件必須as.data.frame()后才能讀取