記錄一下 2021-03
最近在面試,總結(jié)一下面試技巧,我應(yīng)聘的是數(shù)倉工程師,其實(shí)技術(shù)含金量不是很高,好幾個(gè)同學(xué)連SQL都沒寫,連spark都沒問,算法也沒有就直接入職了,啊這,,,,我很羨慕.....,很多大/中型公司的數(shù)倉都還在建,比如喜馬拉雅去年才開始建,游族網(wǎng)絡(luò)甚至是從零開始,米哈游也是從零開始.....,有完善的數(shù)倉還得是銀行系/保險(xiǎn)系/阿里系.....個(gè)人喜歡二次元......不知道有沒有有希望......,總結(jié)一下回答技巧,分享給讀者
1.雜項(xiàng)
1.如何自我介紹
1.基本情況
2.最近一段時(shí)間的工作經(jīng)驗(yàn)
介紹一個(gè)你最熟悉 技術(shù)棧最豐富的項(xiàng)目(當(dāng)前項(xiàng)目的價(jià)值及項(xiàng)目的技術(shù)體系 你負(fù)責(zé)的主要模塊以及你解決的主要問題)
3.對(duì)該公司的了解,行業(yè)解決方案
2.如何陳述自己的項(xiàng)目
我要改進(jìn)一下我的項(xiàng)目,項(xiàng)目太拉胯了......
如何陳述我的項(xiàng)目:
核心部分,技術(shù)棧
3.如何回答自己會(huì)的題目
總分
4.如何回答自己不會(huì)的題目
5.如何談薪資
6.你有什么要問我的嗎
HR:內(nèi)部的福利內(nèi)容 晉升機(jī)制 公司的規(guī)模(技術(shù)組)
技術(shù)官:內(nèi)部的技術(shù)培訓(xùn) 有沒有內(nèi)部的技術(shù)分享 公司在當(dāng)前行業(yè)解決方案中用了哪些技術(shù),我回去學(xué)習(xí)一下
2.引導(dǎo)面試官
大表join大表的問題怎么處理
hive數(shù)據(jù)傾斜的處理方法
spark中的shuffle機(jī)制 join機(jī)制 shuffle底層的shufflerdd算法等
維度建模的方法論與實(shí)際生產(chǎn)結(jié)合起來
表和表之間的關(guān)系
3.描述(照著我這個(gè)改改就行了)
基本介紹
您好面試官,我叫.....,來自....我面試的崗位是數(shù)倉工程師
我在上一家公司主要做的是ETL的開發(fā),與業(yè)務(wù)系統(tǒng)的DBA同事溝通交流,處理數(shù)據(jù)的增量和全量的導(dǎo)入問題,與前端同時(shí)溝通數(shù)據(jù)的埋點(diǎn)相關(guān)工作,以及處理數(shù)據(jù)完整性和規(guī)范性的問題,用戶主題模塊的維護(hù)和報(bào)表的開發(fā)工作,用戶連續(xù)登陸,留存問題,活躍度問題,訪問間隔問題,訪問偏好問題,用戶的基本畫像標(biāo)簽的開發(fā)工作,指標(biāo)報(bào)表的開發(fā)(例如哪類書籍閱讀的人數(shù)多,由電子書轉(zhuǎn)化到實(shí)體書的轉(zhuǎn)化率是多少),還有平時(shí)一些活動(dòng)指標(biāo)的開發(fā)(這次的活動(dòng)做的怎么樣).第三個(gè)部分是負(fù)責(zé)庫存模塊的開發(fā)和設(shè)計(jì),與零售模塊的統(tǒng)一,是我做的最有挑戰(zhàn)的事情
我對(duì)....你們公司的了解,大學(xué)期間我也考取了相關(guān)的證書,對(duì)你們的行業(yè)業(yè)務(wù)也有所了解,我認(rèn)為精準(zhǔn)營(yíng)銷和質(zhì)量的指標(biāo)分析和建模是重要的
對(duì)于我的技術(shù)棧(主要的) hadoop hive spark flink(目前正在學(xué)習(xí))
項(xiàng)目介紹
首先提出難題:溝通的問題 大表和大表的join的性能問題 對(duì)shuffle的處理 數(shù)據(jù)傾斜的處理 SQL可解釋性和結(jié)構(gòu)化的處理 數(shù)據(jù)倉庫系統(tǒng)的可迭代工作 spark算子的優(yōu)化工作 緩慢變化維的處理 (引導(dǎo)面試官來問你這些問題)
有一個(gè)重要的注意事項(xiàng)是:要結(jié)合公司的業(yè)務(wù)來講述項(xiàng)目.避免空洞
重點(diǎn)介紹維度建模(庫存的方法論),照著我那個(gè)庫存模塊的示例來講就行了
對(duì)于用戶主題模塊的報(bào)表的分析與邏輯化(好好梳理一下)
基于流量用戶主題的分析,基于日志采集enent_app_detail表進(jìn)行輕度的聚合(按照session字段)生成我們的數(shù)倉架構(gòu)的一張非常重要的一張表traffic_aggr_session
,基于這樣表我們可以衍生出流量聚合表,多維組合表,同時(shí)我們可以對(duì)用戶進(jìn)行分析,例如生成我們的用戶活躍度表(我們可以分析的指標(biāo)有用戶留存 轉(zhuǎn)化 連續(xù)登陸 連續(xù)活躍 訪問間隔 新用戶留存報(bào)表以及用戶事件分析報(bào)表的開發(fā) ),同時(shí)我們經(jīng)常會(huì)有一些優(yōu)惠的活動(dòng)我們就需要對(duì)該活動(dòng)進(jìn)行分析,例如是漏斗分析 歸因分析 點(diǎn)擊分析,行為路徑 等(基于我hexo上的博客)
我在工作中的一些困難,例如數(shù)據(jù)質(zhì)量的問題(數(shù)據(jù)治理),對(duì)于多源數(shù)據(jù)過程的數(shù)據(jù)捕獲的問題,還有歸因分析的處理
對(duì)于整個(gè)數(shù)倉架構(gòu)的描述:
我們的項(xiàng)目分為這樣幾個(gè)部分:數(shù)據(jù)的采集和埋點(diǎn) 業(yè)務(wù)數(shù)據(jù)系統(tǒng)數(shù)據(jù)的增量和全量的導(dǎo)入 DWD層維度建模的方法論 DWS層的大寬表的建立
待補(bǔ)充.......
用戶獲取、用戶激活结借、用戶留存靶橱、用戶收益以及用戶傳播。(AARRR)
表名的設(shè)計(jì)
數(shù)據(jù)采集標(biāo)簽
ABT
DNA