今天面了一個(gè)New Yorker的data engineer箱舞,之前面的都是干聊,第一次面到有技術(shù)相關(guān)的問(wèn)題,感覺(jué)總算收集到了點(diǎn)有用的經(jīng)驗(yàn)奠骄,把職位描述放在文末吧。
面試官是一個(gè)data scientist剩瓶,今天是一個(gè)小時(shí)的電話(huà)技術(shù)面驹溃,如果進(jìn)入下一輪會(huì)讓做一個(gè)為期一星期的項(xiàng)目,之后再是 vor Ort延曙。他們team一共20人豌鹤,有data scientist和data engineer,主要任務(wù)分為四個(gè)方向枝缔,都挺有趣的:
1. order optimization:分析不同產(chǎn)品布疙,大小,顏色準(zhǔn)備多少庫(kù)存才能更優(yōu)
2. distribution:每個(gè)分店怎么分配庫(kù)存
3. markon pricing:如何定價(jià)
4. image:分析照片愿卸,分析現(xiàn)狀流行趨勢(shì)
介紹完他們的team和工作之后就問(wèn)了些基本問(wèn)題:
1. 首先他看我背景更偏data scientist一些灵临,就問(wèn)我確定知道自己在找什么職位,為什么要做data engineer
2. 你的職業(yè)規(guī)劃是什么趴荸,你對(duì)這個(gè)職位的期望儒溉,ideal role
3. 然后他就讓我講一下我畢設(shè)具體做了什么
籠統(tǒng)的問(wèn)題沒(méi)問(wèn)很多,可能因?yàn)槿思腋慵夹g(shù)的发钝,之后就開(kāi)始問(wèn)技術(shù)問(wèn)題了
1. 現(xiàn)在有堆數(shù)據(jù)顿涣,不知道有多少,讓你盡量高效地隨機(jī)sample其中的10%出來(lái)酝豪,如何做涛碑?
2. 有一個(gè)小file100MB孵淘,和一個(gè)大file10GB蒲障,內(nèi)存2G,如何高效的join兩個(gè)file
小的file用hash表
3. 上一題的擴(kuò)展:如果有兩個(gè)比內(nèi)存大的file,如何高效的join
先排序再join
都是些很基礎(chǔ)的算法思路晌涕,這類(lèi)題目都可以往上想想
4. 之后就問(wèn)了些python相關(guān)的概念
(1) list和tuple的區(qū)別是什么呀滋捶?
(2) generator是什么呀?
(3) pickling unpickling是什么呀余黎?
5. 用沒(méi)用過(guò)container呀重窟?
6. 數(shù)據(jù)庫(kù):inner join left join union的區(qū)別
7. 大數(shù)據(jù)技術(shù),講講 HDFS 是啥吧
8. 數(shù)據(jù)庫(kù)的 denormalization 優(yōu)缺點(diǎn)
(我發(fā)現(xiàn)意思我懂但是一到這種term就不知道在問(wèn)什么了哎惧财,學(xué)習(xí)還是得用英語(yǔ)巡扇,記term)
差不多就這么多,總結(jié)就是下次面試之前把python垮衷,數(shù)據(jù)庫(kù)厅翔,簡(jiǎn)歷上寫(xiě)的技術(shù)的相關(guān)面試題都刷刷,算法的思路也培養(yǎng)一下搀突,如果有后續(xù)再更刀闷,估計(jì)是涼了。