在國(guó)內(nèi)參加PDE考試的人比較少约郁,導(dǎo)致資料也很少缩挑。我在19年1月30號(hào)去上海參加PDE考試,參加前也是完全沒(méi)底鬓梅,因?yàn)闀r(shí)間短資料少供置,但幸運(yùn)的是順利通過(guò)了≌揽欤回過(guò)頭來(lái)看芥丧,其中有些技巧和重點(diǎn),在此做一些總結(jié)坊罢,希望可以給參加PDE考試的同學(xué)提供一些幫助续担。
收獲
1)對(duì)云有新的認(rèn)識(shí)
2)對(duì)大數(shù)據(jù)架構(gòu)、機(jī)器學(xué)習(xí)架構(gòu)設(shè)計(jì)有新的認(rèn)識(shí)
3)當(dāng)然最重要的是獲得google官方發(fā)的證書(shū)
說(shuō)說(shuō)我的準(zhǔn)備
1)花了5周的時(shí)間看完google官方提供的視頻艘绍,幾乎是完全脫產(chǎn)(只做一些事故處理)赤拒。
2)試做官方提供example,一共20道題诱鞠,我錯(cuò)了五道挎挖。我錯(cuò)的主要是安全和BigTable相關(guān)的。
3)google的同學(xué)建議是看concept的相關(guān)內(nèi)容航夺,但離考試也就剩三四天了蕉朵,不可能詳細(xì)復(fù)習(xí),concept是一定看不完的阳掐。那么就針對(duì)沒(méi)有掌握的知識(shí)進(jìn)行復(fù)習(xí)始衅,安全相關(guān)的官方視頻是沒(méi)有涉及的,所以必須自己找資料看缭保,別的資料也沒(méi)有汛闸,就只能看concept中涉及安全的方便,這個(gè)比較少艺骂,最多一天就全部看完诸老。BigTable看來(lái)我也是掌握不好,那么我就看BigTable的concept知識(shí)钳恕。
4)看完上面的就參加考試了别伏,也再?zèng)]做特別復(fù)習(xí)。
整體來(lái)看
google的產(chǎn)品大致涉及存儲(chǔ)(cloud storage忧额、SQL厘肮、spanner、memory睦番、BigTable类茂、datastore)、消息中間件Pub\Sub、計(jì)算(dataproc大咱、BigQuery恬涧、Dataflow)、機(jī)器學(xué)習(xí)ML Engine碴巾、API、DataLab以及可視化丑搔。各個(gè)產(chǎn)品的使用場(chǎng)景必須心里有數(shù)厦瓢,如果看完視頻忘了,必須重新復(fù)習(xí)啤月,最好和開(kāi)源對(duì)應(yīng)起來(lái)煮仇,因?yàn)殚_(kāi)源多多少少有點(diǎn)兒了解,不要從頭學(xué)習(xí)google cloud所有產(chǎn)品知識(shí)谎仲。
思維轉(zhuǎn)變
把自己定位為產(chǎn)品解決方案工程師浙垫,不是找最優(yōu)解,而是找最適合案例的解決方案郑诺。
產(chǎn)品詳情
Cloud SQL & spanner
Cloud SQL 就是mysql\postsql的單機(jī)版夹姥,google幫你做了安裝部署和管理(安全、備份等)辙诞,如果需要水平擴(kuò)展就是spanner了辙售,而且支持事務(wù),這兩個(gè)產(chǎn)品的應(yīng)用場(chǎng)景就是應(yīng)用交易記錄等飞涂。
cloud storage
就是存儲(chǔ)引擎旦部,什么都可以放,沒(méi)有大小文件较店、結(jié)構(gòu)化和非結(jié)構(gòu)化的限制士八,利用好存儲(chǔ)級(jí)別(正常、nearline(月級(jí)訪問(wèn))和cold(年級(jí)訪問(wèn)))可以節(jié)約成本梁呈。
BigTable
考試重點(diǎn)婚度。注意key值的設(shè)置,如何避免熱點(diǎn)問(wèn)題捧杉,時(shí)間序列的問(wèn)題大部分就是選BigTable存儲(chǔ)陕见,BigTable適用于時(shí)延性要求高的場(chǎng)景。
datastore
類似于mongodb味抖,通過(guò)屬性來(lái)查詢评甜,不是重點(diǎn)。
BigQuery
考試重點(diǎn)仔涩。注意安全和視圖相關(guān)知識(shí)忍坷,數(shù)據(jù)存儲(chǔ)在BigQuery和存儲(chǔ)在cloud storage的價(jià)錢差不多,根據(jù)使用情況,會(huì)自動(dòng)處理存儲(chǔ)介質(zhì)佩研,降低價(jià)格柑肴,一定要合理利用BigQuery。
Dataproc
主要是為了適應(yīng)客戶原來(lái)使用hadoop堆棧旬薯,現(xiàn)在不像修改代碼晰骑,就像上云的場(chǎng)景。
dataflow
是google大力推進(jìn)的產(chǎn)品绊序,是替代Dataproc的下一代計(jì)算引擎硕舆,實(shí)現(xiàn)自動(dòng)擴(kuò)縮容,并且流處理和批處理代碼保持一致骤公。題外話:dataflow和bigquery(秒級(jí)響應(yīng))是google大數(shù)據(jù)方面兩大殺傷性武器抚官,區(qū)別于其他云的地方。
Pub\Sub
Pub\Sub和dataflow配合使用處理事件流阶捆,延時(shí)性要求高選用BigTable存儲(chǔ)凌节,不高選用BigQuery。
ML Engine
tensorflow的云化版洒试,實(shí)現(xiàn)離線訓(xùn)練和在線服務(wù)的自動(dòng)化倍奢,配合dataprep可以實(shí)現(xiàn)離線數(shù)據(jù)的預(yù)處理,datalab(jupyter notebook)實(shí)現(xiàn)數(shù)據(jù)探索和離線訓(xùn)練儡司。
Auto ML
Auto ML是為了豐富API娱挨,容許用戶自己提供數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練捕犬。
綜述
其實(shí)知識(shí)點(diǎn)也不那么難跷坝,最后難得可能是英語(yǔ)這一關(guān),視頻和考試全英語(yǔ)碉碉。祝大家順利通過(guò)考試柴钻。
如果有疑問(wèn)歡迎關(guān)注下面公眾號(hào)進(jìn)行交流。