SQL查詢:JOIN ON畦贸、DISTINCT告希、GROUP BY桥温、ORDER BY等等引矩。從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)是數(shù)據(jù)分析的第一步。另外我們的數(shù)據(jù)規(guī)模是TB級(jí)的侵浸,所以還要能使用SQL讓集群做一些簡(jiǎn)單的計(jì)算旺韭,不然都下載到本地的話運(yùn)算資源是肯定不夠的√途酰可能還會(huì)問(wèn)一些非城耍基礎(chǔ)的問(wèn)題,比如PRIMARY KEY澳腹、int织盼、str、double之類(lèi)酱塔。Excel:數(shù)據(jù)透視表沥邻、VLOOKUP、COUNTIFS羊娃、SUMIFS唐全、VAR.P、條件格式等等蕊玷,可能會(huì)涉及到諸如VLOOKUP中的TRUE和FALSE參數(shù)有什么區(qū)別邮利,VAR.P和VAR.S有什么區(qū)別等細(xì)節(jié)問(wèn)題。
1.2 自選動(dòng)作
根據(jù)簡(jiǎn)歷來(lái)問(wèn)集畅,簡(jiǎn)歷上寫(xiě)什么就問(wèn)什么近弟,會(huì)問(wèn)得比較深入。簡(jiǎn)歷作為敲門(mén)磚挺智,撰寫(xiě)也是非常重要的祷愉,切不可寫(xiě)的過(guò)于夸張和造假窗宦,奉勸各位不要作死,畢竟不作死都有可能會(huì)死二鳄。Python赴涵、Stata、R订讼、SPSS髓窜、SAS、EViews都算比較常見(jiàn)的數(shù)據(jù)分析工具欺殿。比如簡(jiǎn)歷上寫(xiě)“精通Python”寄纵,雖然hr知道簡(jiǎn)歷注水是常態(tài),但既然都“精通”了脖苏,那問(wèn)到pandas程拭,regular expression,DataFrame.iterrows()返回的是Series還是dictionary還是list of tuples棍潘,tuple和list的區(qū)別的時(shí)候好歹都得答出來(lái)吧……
2
2.邏輯思維
主要分為兩方面恃鞋,對(duì)業(yè)務(wù)邏輯的理解能力和行文的邏輯水平。
2.1業(yè)務(wù)邏輯
雖然一個(gè)業(yè)務(wù)看似流程簡(jiǎn)單清晰亦歉,但產(chǎn)生數(shù)據(jù)的復(fù)雜程度往往超過(guò)大多數(shù)人的想象恤浪。對(duì)業(yè)務(wù)邏輯的考察主要通過(guò)相關(guān)項(xiàng)目經(jīng)歷。這里小編告誡大家一句肴楷,寫(xiě)在簡(jiǎn)歷上的項(xiàng)目經(jīng)歷起碼自己要非常熟悉水由,對(duì)答如流。以我家hr為例阶祭,每天接觸的是700多張表绷杜,每張表的字段往往超過(guò)200個(gè)直秆。這些表和字段往往還有關(guān)聯(lián)濒募。面對(duì)這么多業(yè)務(wù)指標(biāo),能否迅速理解它們之間的聯(lián)系? 面對(duì)新的數(shù)據(jù)需求圾结,能否邏輯清晰地將它拆分成指標(biāo)瑰剃、二級(jí)指標(biāo)并進(jìn)行各種計(jì)算? 面對(duì)復(fù)雜的局部最優(yōu)化和全局最優(yōu)化需求,能否“抓大放小”筝野,能否迅速找到關(guān)鍵控制點(diǎn)晌姚、關(guān)鍵影響因素并加以優(yōu)化?思維不敏捷,邏輯不清晰的話歇竟,是很難做好這份工作的挥唠。
2.2行文邏輯
畢竟最終產(chǎn)出是一份份報(bào)告,可能是HTML郵件也能是PDF焕议。文章結(jié)構(gòu)還是很重要的宝磨。這里不展開(kāi)說(shuō)了,不過(guò)關(guān)鍵的幾點(diǎn)是先說(shuō)結(jié)論,先寫(xiě)摘要唤锉。
3
3.理論儲(chǔ)備
也分為規(guī)定動(dòng)作和可選動(dòng)作世囊。
3.1 規(guī)定動(dòng)作
主要是基礎(chǔ)的統(tǒng)計(jì)學(xué)理論,如方差窿祥、協(xié)方差株憾、算數(shù)平均數(shù)、幾何平均數(shù)晒衩、中位數(shù)嗤瞎、眾數(shù)、分位值听系、雙峰數(shù)據(jù)猫胁、長(zhǎng)尾數(shù)據(jù)、假設(shè)檢驗(yàn)跛锌、期望迭代法則弃秆、貝葉斯原理等。
3.2 自選動(dòng)作
根據(jù)簡(jiǎn)歷來(lái)問(wèn)髓帽,簡(jiǎn)歷上寫(xiě)什么hr一定會(huì)問(wèn)什么菠赚。第三次奉勸各位不要作死,寫(xiě)的檢驗(yàn)也好機(jī)器學(xué)習(xí)算法也好好歹自己要知道原理郑藏、適用條件衡查、局限性。不然跟你聊起Pearson distance必盖、K-means cluster的隨機(jī)性問(wèn)題的時(shí)候你接不上來(lái)也是很尷尬的拌牲。
4
4.對(duì)細(xì)節(jié)的敏感度
作為數(shù)據(jù)分析師,每天要關(guān)注大量數(shù)據(jù)指標(biāo)歌粥。對(duì)細(xì)節(jié)的敏感度是非常必要的塌忽。這主要分為兩方面,對(duì)統(tǒng)計(jì)口徑的敏感度和對(duì)數(shù)據(jù)的敏感度失驶。
4.1 統(tǒng)計(jì)口徑
統(tǒng)計(jì)口徑一致是確保數(shù)據(jù)可比性的基礎(chǔ)土居,這非常考驗(yàn)數(shù)據(jù)分析師的敏感度和行業(yè)經(jīng)驗(yàn)嬉探。比如轉(zhuǎn)化率擦耀,是點(diǎn)擊算轉(zhuǎn)化還是注冊(cè)算轉(zhuǎn)化還是購(gòu)買(mǎi)算轉(zhuǎn)化?配送時(shí)間涩堤,是從用戶下單開(kāi)始計(jì)時(shí)還是從訂單確認(rèn)開(kāi)始計(jì)時(shí)還是從商品出庫(kù)開(kāi)始計(jì)時(shí)眷蜓?客單價(jià)包不包括配送費(fèi)、打包費(fèi)胎围、代金券形式的折扣優(yōu)惠吁系?
4.2 數(shù)據(jù)
面試者對(duì)數(shù)據(jù)異常波動(dòng)芹敌、離群值、平均數(shù)沒(méi)有代表意義等情況的迅速識(shí)別能力垮抗。比如已知然壽司套餐單價(jià)1,500氏捞,酒水單價(jià)300,平均客單價(jià)2,500冒版,能不能馬上想到這可能是雙峰數(shù)據(jù)或者長(zhǎng)尾數(shù)據(jù)液茎,抑或既雙峰又長(zhǎng)尾的數(shù)據(jù)?
5
5.學(xué)習(xí)能力
互聯(lián)網(wǎng)行業(yè)瞬息萬(wàn)變辞嗡,光數(shù)據(jù)的存儲(chǔ)就有Oracle捆等、MySQL、Hadoop续室、Spark栋烤、Hive、Impala挺狰、谷哥哥三駕馬車(chē)等一大堆奇奇怪怪的東西明郭。互聯(lián)網(wǎng)行業(yè)的從業(yè)者經(jīng)常要面對(duì)新需求丰泊、新工具薯定、新方法。能否迅速掌握新知識(shí)瞳购,解決新問(wèn)題面試者必須證明給hr看话侄。主要考察的方式是了解過(guò)往項(xiàng)目經(jīng)歷,或者出作業(yè)題(比如Sci-Hub)学赛。
6
6.排版和簡(jiǎn)單UI設(shè)計(jì)
數(shù)據(jù)分析報(bào)告必須簡(jiǎn)潔年堆、清晰、重點(diǎn)突出盏浇。主要考察方式是出作業(yè)題讓面試者限時(shí)交一份slides(就是PPT啦)出來(lái)变丧。能掌握標(biāo)準(zhǔn)的Microsoft Design Language是大大的加分項(xiàng)。
7
7.價(jià)值觀
主要看工作熱情缠捌、態(tài)度锄贷、道德水平等等译蒂,這方面的問(wèn)題比較隨機(jī)曼月。
8.有意向?qū)W習(xí)大數(shù)據(jù)的小伙伴 可以進(jìn)群交流哦?710219868 編號(hào) 八月