Google BigQuery 零基礎(chǔ)快速上手

吐槽

最近有工作需要分析Reddit的數(shù)據(jù)丰滑。Reddit的數(shù)據(jù)好處是格式整齊掀淘,但是由于每條很小砚亭,導(dǎo)致數(shù)據(jù)的記錄條目還是蠻大的。舉個(gè)例子扣猫,我用Solr 6.0建2012到2013年的post的索引菜循,半年的索引建了六七個(gè)小時(shí),一年的因?yàn)槌瑫r(shí)沒有建立起來申尤。而且癌幕,我還只是針對幾個(gè)特定的域建立索引。

目的

原本計(jì)劃通過Solr把查詢相關(guān)的文檔都給找出來昧穿,建立一個(gè)相關(guān)文檔創(chuàng)建時(shí)間的time-series data勺远。結(jié)果一年的索引我服務(wù)器上都沒搭起來,從07年到15年的ts data就更沒辦法通過這個(gè)方式搞定了时鸵。

東找西找發(fā)現(xiàn)Reddit的數(shù)據(jù)早就被人上傳到了Google BigQuery上建立了表格胶逢,可以支持類SQL語句的查詢,于是饰潜,只好通過這個(gè)辦法聚合需要的數(shù)據(jù)的time-series data了初坠。

Hands-on

  1. 首先是注冊BigQuery,建立項(xiàng)目彭雾,給項(xiàng)目開啟BigQuery的API碟刺。(這一步有官方文檔)
  2. 然后對于響應(yīng)的項(xiàng)目,生成憑證(credentials)薯酝,并將憑證在.bash_profile文件中設(shè)置為默認(rèn)半沽。
GOOGLE_APPLICATION_CREDENTIALS=/$Path/key.json
export GOOGLE_APPLICATION_CREDENTIALS
  1. 在python代碼中就可以調(diào)用了
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.client import GoogleCredentials
import pandas as pd
# 從環(huán)境變量中獲取默認(rèn)credentials
credentials = GoogleCredentials.get_application_default()
# 構(gòu)建與BigQuery API交互的服務(wù)對象
bigquery_service = build('bigquery', 'v2', credentials=credentials)
# ~~~構(gòu)建query~~~
# 用pandas提供的結(jié)構(gòu)直接將查詢結(jié)果讀入data frame中,并存入.csv文件
df = pd.io.gbq.read_gbq(query_data_string, project_id=project_id)
output_file_name = query_id + ".csv"
df.to_csv(output_file_name, sep='\t', encoding='utf-8')
print "Finished: " + output_file_name

其中吴菠,query_data_string是一個(gè)類SQL語句者填,關(guān)于Query的語句的支持可以參考query reference.

相關(guān)鏈接可以參考

  1. MAPPING NYC TAXI DATA
  2. How to Analyze Every Reddit Submission and Comment, in Seconds, for Free
  3. Analyzing 50 billion Wikipedia pageviews in 5 seconds (beginner tutorial)
  4. Analyzing Hacker News data
  5. Having fun with BigQuery and real-time Reddit data
  6. USING BIGQUERY WITH REDDIT DATA
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市橄务,隨后出現(xiàn)的幾起案子幔托,更是在濱河造成了極大的恐慌,老刑警劉巖蜂挪,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件重挑,死亡現(xiàn)場離奇詭異,居然都是意外死亡棠涮,警方通過查閱死者的電腦和手機(jī)谬哀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來严肪,“玉大人史煎,你說我怎么就攤上這事谦屑。” “怎么了篇梭?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵氢橙,是天一觀的道長。 經(jīng)常有香客問我恬偷,道長悍手,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任袍患,我火速辦了婚禮坦康,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘诡延。我一直安慰自己滞欠,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布肆良。 她就那樣靜靜地躺著筛璧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪妖滔。 梳的紋絲不亂的頭發(fā)上隧哮,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天,我揣著相機(jī)與錄音座舍,去河邊找鬼沮翔。 笑死,一個(gè)胖子當(dāng)著我的面吹牛曲秉,可吹牛的內(nèi)容都是我干的采蚀。 我是一名探鬼主播,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼承二,長吁一口氣:“原來是場噩夢啊……” “哼榆鼠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起亥鸠,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤妆够,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后负蚊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體神妹,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年家妆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鸵荠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,768評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡伤极,死狀恐怖蛹找,靈堂內(nèi)的尸體忽然破棺而出姨伤,到底是詐尸還是另有隱情,我是刑警寧澤庸疾,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布乍楚,位于F島的核電站,受9級特大地震影響彼硫,放射性物質(zhì)發(fā)生泄漏炊豪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一拧篮、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧牵舱,春花似錦串绩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至慧妄,卻和暖如春顷牌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背塞淹。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工窟蓝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人饱普。 一個(gè)月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓运挫,卻偏偏與公主長得像,于是被迫代替她去往敵國和親套耕。 傳聞我的和親對象是個(gè)殘疾皇子谁帕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容