InterviewsProblems

http://www.reibang.com/p/66ad2ee1558b

L1和L2正則化區(qū)別,為什么防止過擬合?

類別不平衡怎么解決已添?

Bagging和boosting?隨機(jī)森林?

判別學(xué)習(xí)和生成學(xué)習(xí)分別右那些?

優(yōu)化方法辜羊?Adam和sgd

遇到過擬合怎么辦?

怎么調(diào)參词顾?

  • 自我介紹
  • 項目和深度學(xué)習(xí)基礎(chǔ)
  1. 我的網(wǎng)絡(luò)一些細(xì)節(jié)八秃,不展開
  2. 那你的網(wǎng)絡(luò)跟xxx網(wǎng)絡(luò)很像啊,你能詳細(xì)說說xxx網(wǎng)絡(luò)嗎肉盹?(表示我根本沒聽過他說的這個網(wǎng)絡(luò)昔驱,我還反問面試官那是個啥樣的網(wǎng)絡(luò)2333,因為我這個網(wǎng)絡(luò)還沒有發(fā)論文垮媒,我還挺擔(dān)心撞idea的)
  3. 你網(wǎng)絡(luò)里用了殘差,說說殘差航棱;
  4. 說說你知道的對于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)睡雇,比如卷積上的一些改進(jìn),或者訓(xùn)練方式上的trick饮醇,或者loss它抱,什么都可以(我一開始說了兩個結(jié)構(gòu)上的,他就不斷的問我還有嗎朴艰,然后我每說一個他都要叫我介紹一下观蓄,說一下優(yōu)缺點(diǎn)之類的混移,直到我真的啥也說不出來了)
  5. 看你用了BN,說一下BN
  6. 說一下vgg的不同版本侮穿?(這個問題其實我沒聽清歌径,我感覺是問vgg,這種問題我一聽就不會亲茅,所以也沒追問回铛;我表示我看過他的論文,但是因為跟我的方向不太貼合(vgg主要還是用來分類克锣?)茵肃,所以沒有深入去看,面試官表示好的他知道了)
  7. 如果你的網(wǎng)絡(luò)不好訓(xùn)練咋辦袭祟?
  • 問我平時用啥語言验残,我說c++和python,做了兩道題巾乳,寫完追問時間復(fù)雜度
  • 啥時候能來實習(xí)您没,今年情況特殊確定能來嗎
  • 反問環(huán)節(jié),我問我有啥欠缺的想鹰,面試官表示可能對于不是我方向的一些問題我了解的太少了紊婉,深度學(xué)習(xí)是相通的我不應(yīng)該不是自己方向就不看;但他表示感覺我代碼能力還挺不錯的(開心)

然后面試官表示他去叫二面面試官辑舷,然后大概十分鐘之內(nèi)吧又來了一個面試官二面

  • 自我介紹
  • 項目
  1. 你網(wǎng)絡(luò)里上采樣是怎么做的(我表示調(diào)包喻犁,具體方法應(yīng)該是雙線性插值)
  2. 那你知道雙線性插值的細(xì)節(jié)嗎(我表示我知道他是怎么算的,但是特別細(xì)節(jié)的話可能講不清楚何缓,面試官表示沒關(guān)系那你可以寫代碼來說明.....于是我立刻給他講清楚了.....)
  3. 平時用啥語言肢础,做個簡單題吧(dp基礎(chǔ)題,機(jī)器人走方格那種)
  4. 反問

深度學(xué)習(xí)一些基礎(chǔ)的問題
過擬合
正則化
BN什么的

第一題是雙哈希表完成O(K)復(fù)雜度在一個list里找到滑動窗口的眾數(shù)

比如神經(jīng)網(wǎng)絡(luò)里的BP算法用Numpy寫出來

三面:
項目中的一些問題碌廓,主要是會問你項目中的方法和其他論文究竟有哪些不同传轰,這就要求你不但要對自己的項目熟悉,還得對一些其他類似的論文熟悉才行谷婆,我估計是想看你有沒有看過源碼結(jié)構(gòu)什么的慨蛙,怕你是“調(diào)參俠”。不要慌纪挎,能記起來的盡量回答期贫。

算法題,買賣股票DP問題异袄,秒答暴力法通砍,然后面試官說有沒有更好的方法,我說DP法,然后寫了個DP封孙,leetcode簡單題迹冤。
問項目,問測試礦泉水流程虎忌。問計算機(jī)網(wǎng)絡(luò)泡徙,TCPIP什么的
算法題,輸入一個list然后輸出這個list的全排列呐籽,leetcode簡單題锋勺。
問了項目,測試抖音青少年模式怎么搞狡蝶,Python的一些基礎(chǔ)問答庶橱。
算法題,給定一個list然后求出和為K的兩個數(shù)贪惹,也是leetcode簡單題苏章,雙指針秒答。
接著問項目奏瞬,測試微信的發(fā)消息功能等等枫绅,依舊是Python的一些基礎(chǔ)問答。
關(guān)鍵是知道自己的優(yōu)勢和劣勢在哪里硼端,不用特地的避諱并淋;

1.機(jī)器人面:

正則化解釋一下

度量兩個分布的距離的方法

LSTM比普通RNN優(yōu)勢在哪

數(shù)據(jù)降維的辦法

過擬合是什么,如何處理

2.一面技術(shù)面

自我介紹珍昨,講項目

有一道場景題县耽,有點(diǎn)忘記了

3.二面技術(shù)面
平時怎么讀論文

Unet講一下

給你幾片論文,你要如何對其中的算法做一個總結(jié)

4.三面hr面

優(yōu)點(diǎn)缺點(diǎn)

有沒有對象

期望薪資

1镣典、最長公共子序列
2兔毙、括號合法匹配問題

一面:

1 - 算法題:樹的層序遍歷的遞歸和非遞歸做法

2 - 算法題:給定一個字符串,一個子串集合兄春,要求不斷刪除字符串中的子串澎剥,直到?jīng)]有可以刪的為止

3 - 自我介紹

4 - 介紹項目

5 - 冷啟動問題,這里其實不是嚴(yán)格的冷啟動問題赶舆,而是面試官問我新節(jié)點(diǎn)來了怎么辦哑姚,孤立的點(diǎn),完全沒有邊關(guān)系(其實他說的這種情況在我定義的模型中是不存在的芜茵,叙量,,夕晓,宛乃,或者嚴(yán)格一點(diǎn)悠咱,存在的概率很小蒸辆。)

6 - 上一個問題征炼,引申到下一個問題,deepwalk這類圖結(jié)構(gòu)的embedding和普通embedding相比躬贡,哪一個解決新節(jié)點(diǎn)問題更好谆奥。(問到這里的時候懵了,因為在我的印象里拂玻,無論冷啟動還是新節(jié)點(diǎn)問題酸些,解決方法都是自己定義的,這些embedding的方法只是說檐蚜,生成的embedding的質(zhì)量不一樣魄懂。我不知道是不是我理解錯了意思)

百度一面說我沒有實習(xí)經(jīng)歷,都是比賽闯第,對工業(yè)界了解的少市栗。(內(nèi)心:所以我才要去找實習(xí)啊)

二面:

1 - 自我介紹

2 - 主要用的是pytorch還是tf咳短,介紹一下torch構(gòu)建一個簡單的dnn的流程

3 - 常見的激活函數(shù)有什么

4 - relu函數(shù)是做什么的填帽,作用和是什么:我說是非線性激活函數(shù),把線性的映射到非線性空間中咙好,如果不加relu篡腌,那不是和lr有點(diǎn)像了,直接是線性回歸了勾效。

4 - 面試官又問嘹悼,那dnn和lr什么區(qū)別,我說lr是線性的葵第,dnn加了激活函數(shù)是非線性的绘迁。她說dnn不加激活函數(shù)也是非線性的,問我為啥卒密。我說是因為它對高階交叉特征提取缀台,所以增加了非線性的因素嗎(高階交叉特征應(yīng)該是非線性的因素吧?)哮奇,她說不是膛腐。然后我問那是為啥,面試官說鼎俘,它就算是不加激活函數(shù)哲身,也可以對一些非線性的函數(shù)進(jìn)行擬合

5 - 常見的embedding有那些。(我比較熟悉的就是graph embedding贸伐,她說就是常見的)然后embedding的作用是什么

6 - 梯度爆炸怎么解決
7 - 怎么做特征
8 - 如果一個特征是是負(fù)向的怎么辦
9 - 分布不一樣的特征是真實存在的勘天,一般不會直接不用了,那要怎么辦,我說可以做一些調(diào)整
10 - 可以有哪些調(diào)整方法

11 - 為什么對推薦感興趣(其實我感覺后面她已經(jīng)不想面我了脯丝,我感覺是強(qiáng)行被我拉著扯了一點(diǎn)人生商膊。。宠进。然后她最后說整體挺好的晕拆,但也沒問算法題,感覺要gg了材蹬。她還給我推薦了一個知乎中搞推薦的人实幕。我覺得大概覺得我雖然菜,但是還挺好學(xué)的堤器。)

我看之前有人的面經(jīng)昆庇,問的都是gbdt,xgb闸溃,lgb凰锡,到我這里就一頓nn的問,我跟面試官說我nn用的不是很熟圈暗,我了解gnn比較多掂为。

常見算法排序,kmp员串,簡單dp代碼

聊簡歷勇哗。講故事一定要有邏輯性,即便你做的是一個很小的項目寸齐,亦或是很low的idea欲诺。(1)背景(場景是什么,說白了就是問題的各種約束條件)渺鹦;(2)要解決什么問題(motivation扰法,相當(dāng)重要,用簡單的幾句話講明白你要解決的問題)毅厚;(3)方法塞颁,這部分都會被提問,你說的每個技術(shù)細(xì)節(jié)都會被問吸耿;(4)結(jié)論是什么祠锣,效率提升了?模型更小咽安,效果相當(dāng)伴网?等等

與其說是引導(dǎo),還不如說對自己簡歷上的各種東西都熟稔于心妆棒,問多深都能回答澡腾。

要提前準(zhǔn)備面試官可能會問的問題沸伏,假如自己是面試官,你會問什么动分,如果自己回答不上來馋评,趕緊學(xué)習(xí)。

1.為什么使用中位數(shù)對缺失值進(jìn)行填充,這樣做的好處是什么?

2.隨機(jī)森林的基本原理?

3.講一下信息增益,信息增益比,Gini系數(shù)的關(guān)系?

4.講一下GBDT和Xgboost,說下他們的原理,以及不同點(diǎn)?

5.one-hot編碼的原理及意義?

6.特征維度很高時你是怎樣做的操作?

7.說下你的缺點(diǎn)和優(yōu)點(diǎn)?

8.最后讓我反問了幾個問題

一面

聊項目刺啦,問了類別不均衡問題,也問了模型可解釋問題纠脾,好像蘑菇街喜歡可解釋強(qiáng)的模型玛瘸?然后當(dāng)時引申的一個問題是,如果nn可以解決高維度離散問題苟蹈,為啥還需要gcn來解決關(guān)聯(lián)性的問題糊渊。其它不記得了。

問的算法題很簡單慧脱,就是兩個排序數(shù)組合并成一個數(shù)組渺绒。

二面

自我介紹以后,面試官就問了我兩個大數(shù)相加的問題菱鸥,寫代碼ing

然后就聊了聊項目宗兼。

三面

1 - 簡單介紹一個項目,這樣做的原因

2 - 你的gcn模型可解釋怎么辦

3 - 你說lr模型可解釋性高氮采,它的可解釋性體現(xiàn)在哪里殷绍?是權(quán)重越大,可解釋性就越強(qiáng)嗎鹊漠?

4 - F(N) = F(N-1) + F(N-2)的時間復(fù)雜度和空間復(fù)雜度問題

5 - 一個商家主到。第一天看A商品和B商品的點(diǎn)擊率。點(diǎn)擊率公式是點(diǎn)擊/曝光躯概。然后登钥,平均的是a的點(diǎn)擊加b的點(diǎn)擊/a的曝光加b的曝光。問娶靡,第二天發(fā)現(xiàn)牧牢,a的點(diǎn)擊率和b的點(diǎn)擊率上升了,但是平均的下降了姿锭。是什么原因结执,從哪些方面入手去解決這個問題

這問題,我用公式角度回答的艾凯,然后面試官問我還要其它解釋嗎献幔。。我不知道趾诗。蜡感。

三面的這幾個問題都回答的不好蹬蚁,感覺涼了。郑兴。犀斋。我已經(jīng)被leader掛出了心理陰影了。情连。

直接簡歷上的東西 稍微推了一下LDA主題模型
問了一些 LDA相關(guān)的20min LDA和LSA的關(guān)系問我的時候我沒答上來..
但是 我說了我直接LDA做的 不了解LSA什么的
鏈表的冒泡排序 面試官說沒問題
之后寫了一個LR 沒問題
問了一些LR的問題
再之后說了一下分類 然后bagging boosting 以及場景
然后寫了一個二叉樹的所有右葉子結(jié)點(diǎn)之和

1.介紹項目叽粹。
2.minibach SGD的minibatch怎么選擇,如果給1000萬的數(shù)據(jù)却舀,mimibach應(yīng)該選多少虫几。
3.Adadeta比Adagrad好在哪。
4.有沒有打開tensorflow框架看源碼挽拔。
5.給一個均勻生成1-7隨機(jī)數(shù)的生成器辆脸,怎樣均勻生成一個1-10隨機(jī)數(shù)的生成器。
6.用C寫個單類進(jìn)程螃诅。
7.用C寫給一個數(shù)組和一個數(shù)s啡氢,返回兩個和為s的元素索引。

一面:1h

兩道代碼題术裸,第一題最長自序和倘是,秒;

第二題數(shù)組中最長字符串組合袭艺,這個沒有寫辨绊,說出了改寫Arrays comparator接口排序和hashMap查找

一、項目

機(jī)器學(xué)習(xí)中熟悉哪些算法

gbdt匹表,xgb原理门坷,區(qū)別,xgb做了哪些優(yōu)化(面試官很nice袍镀,還舉了應(yīng)用場景幫助我理解)

二默蚌、算法相關(guān)

RNN lstm原理

CNN原理

三洪碳、基礎(chǔ)

Java collection基類有哪些接口及其實現(xiàn)類

Java線程六中狀態(tài)中的幾個轉(zhuǎn)換函數(shù)

TCP三次握手

四即供、聊天

喜歡看書嗎?回答喜歡娩井。問看了哪些書设江?

說了數(shù)學(xué)之美锦茁,面試官問感想之類的

總體感覺:體驗很棒、面試官人很nice叉存,是比較有涵養(yǎng)的那種感覺受過良好教育像領(lǐng)導(dǎo)码俩,30歲左右。

二面:30min

一歼捏、項目稿存,抓住一兩個點(diǎn)問的比較深

二笨篷、聊天:(我面試的時候也很蒙)

研究生規(guī)劃、放不放實習(xí)瓣履、老師不同意怎么辦率翅、愿不愿意做Java開發(fā)(我感覺我要調(diào)劑去開發(fā)了....),實習(xí)時間等等

面試官也很nice袖迎,感覺很年輕很有活力那種

10個小球冕臭,隨機(jī)分到12個盒子里,求恰好10個盒子都為空的概率燕锥。要求用Python程序模擬十萬次辜贵,暴力求出該概率。

看到這題我懵了脯宿,讓我蒙特卡洛模擬?偽隨機(jī)數(shù)也不好近似出概率啊泉粉,誤差大的一批连霉。頭一次見不要手推數(shù)學(xué)公式,特意要求你暴力的數(shù)學(xué)題嗡靡。話不多說跺撼,動手開始寫,balabala,模擬完了讨彼,在徘妇客網(wǎng)一運(yùn)行,我懵了哈误,輸出在十萬分之一到十萬分之3之間波動(十萬次只有兩三次恰好10個盒子為空)哩至,題目要求一共只能模擬十萬次,我開始懷疑人生蜜自,檢查代碼菩貌,并且重新設(shè)置了隨機(jī)種子,結(jié)果還是很小的概率重荠。一下急了箭阶,情急之下打印出來前幾次模擬的結(jié)果,確實很難出現(xiàn)恰好10個盒子同時為空戈鲁。然后就跟面試官說仇参,這個概率太低了,同時模擬十萬次又太少婆殿,所以模擬出來的結(jié)果很小诈乒。然后面試官沒說啥了,直接下一題婆芦。好像他也是隨便選的題目抓谴,自己沒做過暮蹂,只是看到這個題目在題庫里分類是數(shù)學(xué),就選了這個癌压。我也不知道這個題目的用意是啥仰泻,也不知道自己是不是想錯了。(PS: 面試之后我直接算概率滩届,C(12,2)*210/(1210)=1.091e-06,如果我算錯了集侯,歡迎各位指出。)

(寫這一題的時候我用的random包(胖南客網(wǎng)系統(tǒng)不讓導(dǎo)numpy)棠枉,random.randint(0,12),發(fā)現(xiàn)數(shù)組越界泡挺,事后發(fā)現(xiàn)原來API果然不一樣辈讶,random.randint(0,12)包括了右端點(diǎn)12,而numpy.random.randint(0,12)是不包括右端點(diǎn)12的娄猫,巨坑贱除,平時使用numpy.random比較多,難怪面試的時候數(shù)組越界)

題目2:

二分查找元素在有序數(shù)組中的位置媳溺,如果不存在月幌,輸出-1,如果存在悬蔽,輸出下標(biāo)(存在多個扯躺,輸出下標(biāo)最小的)。

水的不能再水的題蝎困,但是一開始沒處理好有重復(fù)數(shù)字的情況录语,只過了30%用例(面試過程你可以自己提交代碼,并且可以看到一個錯誤用例禾乘,跟徘瘴蓿客網(wǎng)練習(xí)模式一樣),比如4,4,5,6,7里面找4盖袭,我的代碼返回了1失暂,本該返回0。后面處理了一下鳄虱,AC了弟塞,二分都不能一次通過,差點(diǎn)急出一把汗拙已。

題目3:

給定一個數(shù)組决记,找出數(shù)組的最長連續(xù)子序列。例:3,3,4,7,5,6,8倍踪,最長的連續(xù)子序列(這里的連續(xù)是說連續(xù)整數(shù)系宫,整個子序列是連續(xù)整數(shù)索昂,我一開始題都沒看明白)應(yīng)該是(3,4,5,6),需要返回它們的下標(biāo)(1,2,4,5)扩借。如果存在多種答案椒惨,只需給出任意一組下標(biāo)。

題目一出來潮罪,我就懵了康谆,dp我真的不擅長。直接就聯(lián)想到最長上升子序列了嫉到,但是這個要求整數(shù)連續(xù)沃暗,區(qū)別應(yīng)該也不大,但是我不會寫啊何恶,涼定了孽锥。

LIS:(我不記得LIS的代碼)
if nums[i]<nums[j]:
dp[i] = max(dp[i], dp[j] + 1)
盲猜只要改成如下:
if nums[i]==nums[j]+1:
dp[i] = max(dp[i], dp[j] + 1)

面試官看我不會,讓我先寫一個暴力的方法细层,我還是不會啊惜辑,然后一個小時過完了,涼涼今艺。

1.快速傅里葉變換和離散傅里葉變換的主要區(qū)別是什么韵丑?
2.靜態(tài)方法和非靜態(tài)方法區(qū)別爵卒?
3.單例對象虚缎?

問了項目內(nèi)容,問了場景題和開放題钓株,甚至還問了我職業(yè)規(guī)劃

一開始就自我介紹实牡,然后問了數(shù)據(jù)預(yù)處理怎么做,怎么數(shù)據(jù)清洗轴合,類別不均衡怎么處理的创坞。

問了第一個項目的模型怎么構(gòu)建的,問了圖神經(jīng)網(wǎng)絡(luò)的發(fā)展受葛,我的模型出于什么階段题涨。

你覺得你的論文還有什么可以提升的點(diǎn)

之后就問了比賽,比賽中比較重要的是什么总滩,是怎么分工的纲堵。

問了之后想要做的是研究還是應(yīng)用一點(diǎn),這些模型是自己動手優(yōu)化實現(xiàn)的闰渔,還是調(diào)包席函。

場景題是,對于團(tuán)伙作案冈涧,從哪些維度考慮聚集性茂附;對于無標(biāo)簽的數(shù)據(jù)正蛙,怎么考慮建模

開放題:

有一個人你知道他銀行卡金額上限和下限,猜銀行卡金額营曼,猜對了就把金額給你乒验,想要概率最大(猜的次數(shù)最少),金額最大溶推,可以猜無數(shù)次徊件,怎么優(yōu)化,怎么建模蒜危,可以先做一些實驗輔助虱痕。

面試官很會問問題,后面的開放題辐赞,她也一直在引導(dǎo)我部翘,奈何我菜,沒有找到正軌响委,答得不好新思。

總的來說,問的問題比較廣泛赘风,但都沒有特別深入的問下去夹囚,可能一面還是看知識廣度吧。

一二面:

1. 算法題:無序數(shù)組找前k大的數(shù)邀窃,描述思路+復(fù)雜度分析

2. Python:callable荸哟,垃圾回收

3. 機(jī)器學(xué)習(xí)分類指標(biāo)有哪些?AUC如何計算瞬捕?

4. SVM和GBDT的比較鞍历?

5. attention說一下?

6. xgboost肪虎?lightGBM說一下改進(jìn)點(diǎn)劣砍?

7. 隨機(jī)森林描述一下?

8. 深度學(xué)習(xí)模型壓縮有哪些方法介紹一下扇救?

9. 關(guān)于項目的討論:關(guān)鍵工作刑枝?負(fù)責(zé)角色?難點(diǎn)及解決方案迅腔?是否有落地應(yīng)用装畅?

10. 連續(xù)值數(shù)據(jù)特征離散化的好處?原因钾挟?

11. 正則化的方法洁灵?作用?原理?

12. 常見Loss徽千?物理意義苫费?

13. 工程相關(guān):項目中學(xué)到的東西舉例?如何解決bug双抽?代碼優(yōu)化百框?量化代碼效率?緩存機(jī)制牍汹?

14. 操作系統(tǒng)是如何執(zhí)行C++代碼的铐维?C++智能指針介紹一下?

15. 統(tǒng)計學(xué)習(xí)算法舉幾個例子來慎菲?能夠如何分類嫁蛇?分類的標(biāo)準(zhǔn)如何定義?

項目介紹完之后細(xì)扣項目露该,數(shù)據(jù)清洗睬棚,LSTM結(jié)構(gòu),如何評估解幼,怎么調(diào)參的等等吧

前面聊的還行抑党,后面寫題心態(tài)蹦了

SQL簡單題,奈何早忘的一干二凈了撵摆,難受

算法題底靠,從n個數(shù)據(jù)中抽取m個數(shù)據(jù),保證每個數(shù)據(jù)被抽到的概率為m/n特铝。沒見過這種題型暑中,崩,最后說了思路苟呐。

這里建議非科班面大公司搞搞sql痒芝,AB測試俐筋,大佬隨意面牵素。準(zhǔn)備的模型推導(dǎo)一個沒問,裂開澄者。

主要問了人工特征工程和lighgbm模型特征處理笆呆,有啥不一樣的,你為啥要構(gòu)造這特征粱挡。

然后就是一些樣本不平衡處理(重點(diǎn)聊了小樣本只有一個的時候)赠幕,

神經(jīng)網(wǎng)絡(luò)利用dropout和多項式回歸利用正則項減輕過擬合的本質(zhì)是什么(為什么就能減輕過擬合了),

我項目有用到lightgbm和xgboost模型融合询筏,就問了為啥要這兩個模型融合榕堰,lightgbm是xgboost的改進(jìn),那你為什么還要融合呢,懵了...

項目的主要問題還是特征構(gòu)建逆屡,會問你為什么要這樣構(gòu)造特征圾旨。

書本上基本知識得熟悉!會用魏蔗!知道為啥用砍的!

2、細(xì)扣實習(xí)項目(問的比較深)

3莺治、數(shù)據(jù)清洗廓鞠、數(shù)據(jù)平滑主要操作

4、有關(guān)一個時序列問題(具體還沒想起來)

好了梯度下降要來了

5谣旁、詳細(xì)說一下隨機(jī)梯度下降和批量梯度下降

6床佳、線性回歸多變量求解的過程,為什么這樣求解榄审?這樣求解為什么是最優(yōu)解夕土?(我回答的是求導(dǎo),也就是梯度下降)

7瘟判、怎么優(yōu)化梯度下降過程怨绣,主要是速度優(yōu)化?

8拷获、自適應(yīng)梯度優(yōu)化是什么樣子篮撑?

9、擬牛頓法能說說嗎匆瓜?

10赢笨、學(xué)習(xí)率過大會出現(xiàn)什么問題,怎么解決

11驮吱、最大似然估計和貝葉斯估計的聯(lián)系和區(qū)別

12茧妒、如果我想預(yù)測的結(jié)果是一個置信區(qū)間你打算怎么建模型(這個是在最前面的問題)

13、一階導(dǎo)和二階導(dǎo)分別表示什么左冬,能說一下意義嗎桐筏?

接下來就是聊人生了。

首先我介紹我的數(shù)據(jù)預(yù)處理拇砰,我說到類別不均衡問題梅忌,然后面試官打斷我,問我說的類別不均衡是什么意思

然后我解釋了除破,又問我為啥要用采樣解決牧氮,為什么不用修改目標(biāo)函數(shù)。

圍繞這個問題瑰枫,說了二十分鐘吧踱葛。

這不是我的重點(diǎn),我想要一份均衡的數(shù)據(jù)集,避免它對我模型的影響尸诽,但同時我想對比各個模型的效果圾笨,所以修改了目標(biāo)函數(shù)的話,其它對比模型面臨的還是類別不均衡的數(shù)據(jù)逊谋。

之后我說了我的模型擂达,沒有問模型的問題,特征工程也只是問了問可用那些特征胶滋。

對于某些數(shù)據(jù)集類不平衡問題真的很重要板鬓,比如1%的癌癥和99%的癌癥,有些模型就會把所有樣本認(rèn)為是健康的究恤,就會有99%的準(zhǔn)確度俭令,但明顯是沒有意義的

單純上采樣有過擬合風(fēng)險,單純下采樣肯定數(shù)據(jù)不全部宿,而且采樣可能會對特征提取有影響抄腔,因為一些id稀疏,所以模型學(xué)不到什么東西理张。修改目標(biāo)函數(shù)的話比較簡單赫蛇,而且我感覺是從本質(zhì)上解決這個問題,就是減少了正樣本過少導(dǎo)致它的loss變化小雾叭。

面試官可能覺得通過采樣解決類別不平衡問題的話(相當(dāng)于修改訓(xùn)練集合數(shù)據(jù)分布)悟耘,會導(dǎo)致測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)不是同分布,這樣采樣以后還需要修正(比如小類別數(shù)據(jù)權(quán)重增加)织狐。那么不如直接修改損失函數(shù)暂幼,增加小樣本的權(quán)重,然后用AUC來評估模型好壞移迫。

第一次寫一點(diǎn)經(jīng)驗給大家分享旺嬉,有什么問題希望別介意

首先先進(jìn)行自我介紹(老規(guī)矩)

1.寫一個代碼,樹的層序便利(寫出來了)

2.代碼:編輯距離(不懂的可以自己去百度一下厨埋,只說了思路邪媳,代碼沒寫寫出來)

3.圍繞簡歷問了一些項目相關(guān)的問題(略)

4.因為簡歷上寫了Cnn,所以問了一些cnn方面的東西(問的很多揽咕,我只說了一點(diǎn)點(diǎn)悲酷,效果不理想)

5.畢設(shè)做了推薦算法(本以為會問很多)套菜,結(jié)果只問了一個問題(計算用戶相似度的時候為什么用余弦亲善,不用其他的算法)

細(xì)扣實習(xí)的東西(太深了)、
一階導(dǎo)二階導(dǎo)代表什么(看我太菜了)
還有關(guān)梯度下降

image.png

1.自我介紹逗柴,

2.你這個論文是怎么做的蛹头,場景是什么,你這個酒店數(shù)據(jù)集里面是個什么樣子,推薦出的東西是啥渣蜗,如果我要預(yù)測用戶下一個購買的物品屠尊,你這個模型可以用嗎?

3.xgboost和gbdt的區(qū)別耕拷。

4怎么判斷過擬合讼昆,你一般怎么解決。

5骚烧,參數(shù)初始化的作用是啥浸赫,

6.會話的長度對你的效果有影響嗎?

7.graph-embedding的流程赃绊,和普通的word2vec效果的區(qū)別既峡。

8.說一說偏差和方差吧,

9.什么模型能減小方差碧查。

10.xgboost的二階泰勒展開為啥那么效果更好运敢,

11.了解b+樹嗎?

12.寫個sql題吧忠售。

13.講一下dp的思想传惠,斐波拉契數(shù)列能用dp做嗎?什么問題適用于dp稻扬。

13.http里面get請求和post請求有啥不同涉枫。

14.你論文的數(shù)據(jù)預(yù)處理是怎么做的,你把那些出現(xiàn)次數(shù)少的給刪掉了腐螟,那你怎么推薦那些物品呢愿汰。

15.你的embedding維度是多少,

16.你了解mutil-task嗎乐纸?

17.你了解point-wise衬廷,pair-wise,list-wise嗎汽绢?

18.你覺得樹模型和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)處理有什么不同嗎吗跋?

19.講一下整個推薦系統(tǒng)的流程。

20.你知道位置偏差這個東西嗎宁昭?Position bais跌宛?21.mutil-task的任務(wù)是怎么優(yōu)化的?

22.比如我要針對一個指標(biāo)积仗,如mrr疆拘,ndcg這種,它是不可微的寂曹,該怎么處理哎迄。

23.推薦系統(tǒng)的可解釋性你了解嗎回右?有哪些方法,基于深度學(xué)習(xí)的推薦系統(tǒng)可解釋性你知道些什么漱挚。

24.你論文里面數(shù)據(jù)增強(qiáng)怎么做的翔烁,

25.高維稀疏的特征為啥不適合用xgboost

2道業(yè)務(wù)場景題-商品性價比和排序期望題

第1道題當(dāng)場就給出了解決方案,二分類機(jī)器學(xué)習(xí)問題

對模型旨涝、推薦系統(tǒng)蹬屹、項目線上經(jīng)驗等考察得比較深入。

leader面對機(jī)器學(xué)習(xí)考察得比較全面白华、深入哩治,

- 最少時間復(fù)雜度求數(shù)組中第k大的數(shù),寫code

- 去除字符串S1中的字符使得最終的字符串S2不包含’ab’和’c’衬鱼,寫code

- 長度為N的序列Sequence=abc….Z业筏,問有多少不同的二叉樹形態(tài)中序遍歷是這個,寫遞推公式

- 給定整數(shù)n和m鸟赫,問能不能找出整數(shù)x蒜胖,使得x以后的所有整數(shù)都可以由整數(shù)n和m組合而成

- 中序遍歷二叉樹,利用O(1)空間統(tǒng)計遍歷的每個節(jié)點(diǎn)的層次抛蚤,寫bug free的code

- 排序二叉樹轉(zhuǎn)雙向鏈表

- 一個運(yùn)算序列只有+台谢、*、數(shù)字岁经,計算運(yùn)算序列的結(jié)果

3朋沮、機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘問題

- L1和L2正則項 >> 它們間的比較

- 各個模型的Loss function,牛頓學(xué)習(xí)法缀壤、SGD如何訓(xùn)練

-介紹LR樊拓、RF、GBDT 塘慕,分析它們的優(yōu)缺點(diǎn)筋夏,是否寫過它們的分布式代碼

- 介紹SVD、SVD++

- 是否了解線性加權(quán)图呢、bagging条篷、boosting、cascade等模型融合方式

- 推薦系統(tǒng)的冷啟動問題如何解決

- 是否了解A/B Test以及A/B Test結(jié)果的置信度

- 特征工程經(jīng)驗

- 是否了解mutual infomation、chi-square、LR前后向齿诞、樹模型等特征選擇方式

4.解決方案類題目

- 為今日頭條設(shè)計一個熱門評論系統(tǒng),支持實時更新

- 給定淘寶上同類目同價格范圍的兩個商品A和B乞巧,如何利用淘寶已有的用戶、商品數(shù)據(jù)姚炕、搜索數(shù)據(jù)摊欠、評論數(shù)據(jù)丢烘、用戶行為數(shù)據(jù)等所有能拿到的數(shù)據(jù)進(jìn)行建模柱宦,判斷A和B統(tǒng)計平均性價比高低些椒。統(tǒng)計平均性價比的衡量標(biāo)準(zhǔn)是大量曝光,購買者多則高掸刊。

- 有n個elements和1個Compare(A, B)函數(shù)免糕,用Compare函數(shù)作為排序算法中的比較算子給elements排序。Compare函數(shù)有p的可能比較錯忧侧。排序完取Top m個元素石窑,本來就在Top m并被正確分在Top m的元素個數(shù)是x。問x的數(shù)學(xué)期望蚓炬。

- 如何預(yù)測雙十一支付寶的負(fù)載峰值松逊。

個人發(fā)展受限(瞎扯唄,就說自己剛畢業(yè)認(rèn)知有限肯夏,好奇心比較重经宏,年少輕狂),想從事新的行業(yè)驯击,別說老東家壞話烁兰,傳播正能量

2輪內(nèi)容都是項目相關(guān),以及相關(guān)引申點(diǎn)徊都,你面臨到了啥問題沪斟,怎么改善的之類的。

可能自己回答上面不夠自信 + 回答的點(diǎn)不夠全面吧emmm暇矫。

0. 項目介紹主之。

1. wide&deep等相關(guān)介紹。

2. 面臨的困難/注意做了啥部分李根。

3. 怎么改善呢杀餐?現(xiàn)在讓你重新思考這個ctr預(yù)估場景上線后的場景如何提高?

下周一再不變朱巨,基本上就可以等簡歷釋放其它bg撈了史翘。

簡單總結(jié):

0. 講話要自信,不要遲疑冀续,唯唯諾諾琼讽;

1. 項目要講清楚,所有點(diǎn)盡可能保證深度/廣度到位洪唐,突出自己的貢獻(xiàn)钻蹬;

2. 回答問題的時候,做好條理清晰點(diǎn)凭需,不要想到啥說啥问欠,會顯得很沒邏輯肝匆,面試官聽著也很難受。

很常規(guī)的問題顺献,做的項目是什么方向旗国?怎么分工協(xié)作的?你做了哪些注整,怎么做的能曾,中間克服了什么困難?為什么選擇騰訊?

詳細(xì)介紹了LSTM對RNN改進(jìn)的地方
問了問我SVM的原理和優(yōu)點(diǎn)
最后做了一道算法題:是lc的原題(找出一個字符串中所有的回文串)

1.自我介紹肿轨。

2.講項目寿冕,三個項目都講了一遍。

3.問了對推薦方面的了解椒袍。 答:沒做過相關(guān)項目驼唱,但是有一些簡單的了解,比如驹暑,LR, FM, DeepFM, 協(xié)同過濾玫恳,矩陣分解。

4.問RNN有什么問題岗钩。 答:扯了長期依賴問題纽窟,attention的解決也不夠理想。目前基本朝著CNN+attention兼吓、transformer這個方向前進(jìn)臂港。

5.追問那為什么transformer這種更好。 答:因為并行视搏,可以更好的attention审孽。

6.RNN為什么梯度消失。 答:tanh激活函數(shù) 以及序列過長會導(dǎo)致梯度消失浑娜。

然后面試官和我解釋了一下其實還有個原因是因為RNN是每一步都共享權(quán)重的佑力。(確實忘了)

7.算法題接雨水。 說了下思路筋遭,寫完之后面試官覺得有問題打颤,現(xiàn)場跑了幾組樣例。都過了漓滔。

8.你有什么問題+部門介紹编饺。

2、第一個項目為什么做了一年响驴?這點(diǎn)東西居然需要一年透且?(這個人應(yīng)該是個leader,第一個東西是一篇SCI一區(qū)論文)然后揪著這個項目問了十幾分鐘豁鲤,所以一定要對自己項目非常了解秽誊。

3鲸沮、最近看了什么論文?將一篇論文講清楚锅论。

4讼溺、怎么調(diào)參的?怎么解決效果不好的情況棍厌?

2肾胯、介紹一下你論文中的注意力機(jī)制竖席,為什么這樣設(shè)計耘纱?有什么優(yōu)點(diǎn)?

3毕荐、講講transformer 在那些地方做了改進(jìn)束析?

4、講CycleGAN的結(jié)果憎亚,怎么處理字符漂移問題员寇?

5、深度學(xué)習(xí)調(diào)參經(jīng)驗第美?

6蝶锋、怎么處理大批量數(shù)據(jù)的讀入?(基于pytorch或tensorflow回答)

7什往、有什么問題想問的扳缕?

5、為什么loss會出現(xiàn)nan ?

然后問了LR和DecisionTree的區(qū)別

問了Stacking的原理(因為項目里有用到)

還問了Bagging和Boosting的區(qū)別

最后是業(yè)務(wù)場景題别威,問電商推薦可以用的主要特征有哪些

開門見山躯舔,自己講自己的論文,首先講自己的論文是做了一個啥東西省古,什么領(lǐng)域的 ==> 再講自己論文的動機(jī)是什么 ==> 然后再講自己論文中是怎么做的粥庄,為什么這么做,有什么直觀上的解釋 ==> 最后再提一下論文中的其他部分

  • 如果有n種類別(比如新聞類豺妓,體育類等)的網(wǎng)站惜互,目前收集到一些網(wǎng)站,及其網(wǎng)站中不良信息的位置琳拭,那么新來一個網(wǎng)站训堆,如何判斷該網(wǎng)站中是否含有不良信息,若含有臀栈,不良信息在哪個位置蔫慧?

    • 這時我提問題,新來的這個網(wǎng)站的類別知道嗎权薯?然后面試官說姑躲,知道和不知道睡扬,分別有什么處理方式?

      • 對于新來的網(wǎng)站知道類別的黍析,我覺得既然要檢測不良信息在哪個位置卖怜,這種問題一般比較難,我說如果要考慮公司部署等問題的話阐枣,可以每種類別都有監(jiān)督的訓(xùn)練一個模型马靠,面試官聽了之后,具體細(xì)節(jié)面試官就沒問下去了蔼两。

      • 對于新來的網(wǎng)站不知道類別的甩鳄,我說還是每種類別都有監(jiān)督的訓(xùn)練一個模型,然后用判斷新來的網(wǎng)站跟哪個網(wǎng)站相似度更高额划,再用其訓(xùn)練好的模型預(yù)測妙啃。

        • 這個問題是給自己挖了個坑,感覺答的很不好俊戳,新來的網(wǎng)站不知道類別的這種做法估計有挺大的問題揖赴。* 面試官聽完上述描述之后,也沒有做什么評價抑胎,然后他說燥滑,要不我們直接把問題簡單一點(diǎn),如果收集到一些網(wǎng)站的語料阿逃,如何判斷這些網(wǎng)站中是否有不良信息铭拧。
    • 這個我就直接答了,我說這個直接跑一個BERT就可以了盆昙,先對網(wǎng)站預(yù)處理羽历,如果過長就切成幾個para就好了,然后跑BERT做個分類即可淡喜;

      • PS:其實這里如果面試官問下細(xì)節(jié)秕磷,怎么切?切的依據(jù)是什么炼团?最后怎么綜合幾個para做分類的澎嚣?我可能懵了,這塊細(xì)節(jié)沒去看瘟芝。
    • 然后這時候面試官說易桃,但是公司部署的話,一般不直接采用BERT锌俱,你有其他辦法嗎晤郑?我說那可以用tf-idf表示新聞?wù)Z料,然后過一個LR就好了,用PCA降維之后造寝,效果也還行磕洪,應(yīng)該做的比較好有70%+的準(zhǔn)確率。

      • 這時面試官就問了诫龙,那你說一下tf-idf的公式是怎么樣的析显?有什么缺陷?然后我有點(diǎn)懵逼签赃,沒太答好

情景問題谷异,他說如果有一些語料,然后還有一些關(guān)鍵詞锦聊,如何判斷這些語料中是否含有這些關(guān)鍵詞歹嘹,然后我問,關(guān)鍵詞長度多少括丁,是一個詞語還是一句話甚至更長荞下,然后面試官說這個重要嗎伶选?然后我就回答史飞,如果只是判斷關(guān)鍵詞,那可以用原來的語料先分詞仰税,然后再做一個vocabulary构资,再將vocabulary中的單詞做hash,這樣后續(xù)就能實現(xiàn)O(1)查找了陨簇。然后面試官問吐绵,那你這個建立vocabulary的過程的時間復(fù)雜度是多少?我說應(yīng)該是O(n)吧河绽,如果針對英文語料的話(畢竟直接空格隔開)己单,然后他說如果是中文呢?時間復(fù)雜度是多少耙饰?我說中文還真沒了解過底層分詞的時間復(fù)雜度纹笼,然后他就問,那中文分詞有哪些處理方式苟跪,是怎么做的廷痘?我說CRF序列標(biāo)注那一套?然后他讓我講一下CRF的原理以及分詞的過程件已,然后我說不會笋额,面試官就沒有盤問下去了,便回到原來的問題篷扩,他說關(guān)鍵詞長度不限兄猩,有沒有什么好用的方法,然后我說那要不然kmp算法吧,然后他問我kmp算法的時間復(fù)雜度枢冤,我說O(m+n)援岩,然后我就讓我描述一下kmp算法的算法流程,orz掏导,實在是想不起來了next數(shù)組的生成過程享怀,就跟他說本科學(xué)過,也寫過代碼實現(xiàn)趟咆,但是現(xiàn)在忘了添瓷。

介紹了一下簡歷上面的項目(問的不深)

準(zhǔn)確率和召回率的概念

LR如何引入非線性

什么是卷積

什么是過擬合,如何改善

提取特征做過哪些預(yù)處理操作(我回答做過歸一化和圖片增強(qiáng)值纱,問了一下歸一化具體如何做的)

邏輯題:0 1 2 3 4 5 6 7 8 9 下面寫一個數(shù)鳞贷,使得下面這個數(shù)剛好是這個數(shù)字在下面一行出現(xiàn)的次數(shù)

答案: 6 2 1 0 0 0 1 0 0 0

手寫快排

兩個字符串的最小距離(插入,刪除虐唠,改變一個字符)說一下思路和復(fù)雜度

4 場景題搀愧,給出用戶的數(shù)據(jù)和交易記錄,是否給他開通花唄

5 gbdt 和 xgb

6 做了個題目疆偿,https://zhuanlan.zhihu.com/p/112002408

7 什么情況下用動態(tài)規(guī)劃咱筛,如果換成遞歸會怎么樣

1.推薦系統(tǒng)有幾個步驟 為什么要召回?

2.你平時調(diào)參的時候杆故,怎么設(shè)置神經(jīng)網(wǎng)絡(luò)的大小的迅箩?

3.深度學(xué)習(xí)用在推薦里的例子有哪些?能描述一下ncf的基本框架嗎处铛?

4.python里的正則表達(dá)式

5.推薦系統(tǒng)里的排序算法有哪些

6.你處理數(shù)據(jù)集的時候饲趋,會遇到哪些關(guān)于數(shù)據(jù)的問題?你是如何處理的

  • 自我介紹撤蟆。(這是你唯一能把握主動權(quán)的3分鐘^人堋!<铱稀)
    上來先自我介紹龄砰,我主要從數(shù)學(xué)建模比賽(本科參加了很多次,崗位對這個比賽是nice to have)息楔、項目寝贡、對強(qiáng)化學(xué)習(xí)的了解(這個部門主要是用強(qiáng)化學(xué)習(xí))3個方面進(jìn)行介紹,我并沒有按照簡歷照本宣科值依,而是分別拿出3個方面最值得介紹的經(jīng)歷圃泡,以講故事的方式來敘述,并且說完一個經(jīng)歷就會總結(jié)一句:我在這個經(jīng)歷中收獲最多的是xx(eg:快速學(xué)習(xí)能力愿险、團(tuán)隊合作意識等)颇蜡。因為自我介紹是為了讓面試官了解你身上具備的優(yōu)點(diǎn)和潛質(zhì)价说,至于你已有的能力,你的簡歷上已經(jīng)寫得清清楚楚风秤,就不需要浪費(fèi)這么寶貴的3分鐘鳖目。

    • 比賽、項目提問
      面試官會根據(jù)自我介紹的內(nèi)容進(jìn)行提問缤弦,所以自我介紹顯得尤為重要领迈,你可以引導(dǎo)面試官接下來會對你提問什么。我在自我介紹時說到比賽中快速自學(xué)了元胞自動機(jī)模型并得到了應(yīng)用碍沐,兩面的面試官關(guān)于比賽的問題都問且只問了元胞自動機(jī)的相關(guān)知識狸捅,包括簡介、原理累提、應(yīng)用場景尘喝、有沒有對其進(jìn)行改進(jìn)。
      至于項目斋陪,只要把涉及到的整體流程朽褪、每個算法的原理&使用的原因、難點(diǎn)搞清楚就差不多了无虚,并沒有問到代碼具體實現(xiàn)缔赠。

    • 機(jī)器學(xué)習(xí)
      ①面試官:你參加那么多數(shù)學(xué)建模比賽,對機(jī)器學(xué)習(xí)方法應(yīng)該挺了解骑科,請你說下哪些模型可以用來做回歸橡淑?
      簡要:我把回歸分析里的方法都講了,并提到了支持向量回歸咆爽。

    ②面試官:請講下支持向量回歸原理。
    簡要:我說不會置森,但知道支持向量機(jī)

    ③面試官:支持向量機(jī)也差不多類似斗埂,那你說下吧
    簡要:我從SVM基本問題定義到對偶問題的推導(dǎo)過程,以及核函數(shù)凫海、非線性問題呛凶、SMO、KKT條件都說了行贪。

    • 深度學(xué)習(xí)
      ①面試官:講下BN漾稀。
      簡要:這個是常考的建瘫,一定要會崭捍。我從背景、原理啰脚、方法殷蛇、訓(xùn)練和測試的差異、意義,各方面都詳細(xì)說了粒梦。

    ②面試官:你剛說到BN要重構(gòu)亮航,請問為什么?
    簡要:我之前看過博客匀们,說是如果不做的話會破壞淺層的特征缴淋,結(jié)果面試官說不重構(gòu)也可以學(xué)習(xí)到特征呀。然后又繼續(xù)反問我為什么要重構(gòu)泄朴。我想不出來宴猾。最后他告訴我是因為歸一化后會降低表征能力。

    ③面試官:你做過深度學(xué)習(xí)叼旋,那你說說卷積吧仇哆。
    簡要:我把卷積的整個過程詳細(xì)講了一遍。

    ④面試官:pooling有什么意義
    簡要:我從降維減少參數(shù)量和減少卷積后的冗余兩方面回答夫植。結(jié)果面試官補(bǔ)充說pooling可以增大深層卷積的感受野讹剔。

    ⑤面試官:剛才說到感受野,那談?wù)勀銓Ω惺芤暗睦斫獍伞?br> 簡要:這個我之前沒準(zhǔn)備详民,就真的是憑自己的理解延欠,結(jié)果也答的不好。面試官告訴我是一個卷積核可以映射原始輸入圖的區(qū)域大小沈跨。

    ⑥面試官:講下激活函數(shù)的意義
    簡要:講了常用的幾個的激活函數(shù)及意義

    ⑦面試官:為什么要用relu而不用sigmoid
    簡要:從飽和區(qū)間由捎、敏感區(qū)間和梯度三個方面來回答。

    ⑧面試官:有了解過GAN嗎饿凛?
    簡要:沒有狞玛。。涧窒。

    • 強(qiáng)化學(xué)習(xí)
      ①面試官:講下q-learning心肪。
      簡要:一步一步介紹了模型。

    ②面試官:有了解過DDPG嗎纠吴?講一下原理硬鞍。
    簡要:我說是屬于Policy Gradient系列的,就從PG->Actor Critic->DDPG一路詳細(xì)地講了模型的流程和特點(diǎn)戴已。

    • 語言
      ①面試官:講下python的staticmethod和staticclass
      簡要:沒聽過固该,但面試官談到了裝飾器,我就介紹了裝飾器相關(guān)的糖儡。

    ②面試官:講下python的匿名函數(shù)和意義
    簡要:講了lambda的形式和意義

    ③面試官:對淺拷貝和深拷貝有了解嗎伐坏,講一下。
    簡要:很清晰地介紹了它們的特點(diǎn)和區(qū)別休玩。

    • 框架
      ①面試官:講下tensorflow搭建網(wǎng)絡(luò)和訓(xùn)練的流程著淆。
      簡要:從定義占位符開始一步一步說下來劫狠,可能說的很順暢,說到一半面試官就說不用了永部,下一個問題独泞。

    ②面試官:有沒有學(xué)過pytorch
    簡要:我沒學(xué)過,但我說知道現(xiàn)在很流行苔埋,如果以后工作需要用這個框架懦砂,那我可以快速學(xué)習(xí),因為框架之間應(yīng)該都差不多组橄,況且pytorch還更簡潔簡便荞膘。

    • 算法題
      面試官發(fā)了一個騰訊文檔,可以實時看到我敲的代碼玉工。然后問我有沒有刷過算法題羽资,我說這學(xué)期剛開始刷,刷了一些遵班。他就說那我們先來一題簡單的屠升。就現(xiàn)場從leetcode搜了一題easy的。然后給3分鐘思考狭郑,思考完跟他講思路腹暖,講完就讓我在文檔寫代碼,按leetcode的那種形式翰萨,給10分鐘脏答。看我很快想出來并很快寫完亩鬼,他就說那再來一題殖告。結(jié)果出了一題medium。恰好我做過原題辛孵,前兩天還復(fù)習(xí)了丛肮,所以秒解,用哈希集合+快慢指針魄缚,并且面試官問了我時間復(fù)雜度,因為快慢指針各遍歷一次焚廊,所以是O(n)冶匹。以下是題目:
      ①原地刪除排序后的數(shù)組中重復(fù)的數(shù)字。(要求空間復(fù)雜度為O(1))
      ②給定一個字符串咆瘟,請你找出其中不含有重復(fù)字符的最長子串的長度嚼隘。

    • 開放性問題(都跟他們的溫室挑戰(zhàn)賽有關(guān))
      開放性問題是本來已經(jīng)結(jié)束了,都已經(jīng)在提問反轉(zhuǎn)環(huán)節(jié)了袒餐,說到一半他突然說問我一個開放性問題飞蛹。
      ①面試官:如何設(shè)計一個算法來實現(xiàn)自動控制溫室種植谤狡,假設(shè)數(shù)據(jù)都已經(jīng)收集好。
      簡要:我說了用強(qiáng)化學(xué)習(xí)卧檐,并給了幾種現(xiàn)有算法墓懂。

    ②面試官:那如果不用強(qiáng)化學(xué)習(xí),你覺得可以用什么方法做霉囚。
    簡要:想了半天想不出捕仔。。

    • 其他
      ①面試官:有沒有學(xué)過搜索算法盈罐?
      簡要:這學(xué)期剛好學(xué)了相關(guān)課程榜跌,就都說了。然后實現(xiàn)過一些盅粪,比如啟發(fā)式搜索算法:GA钓葫、SA等,都自己用代碼寫過票顾,也在數(shù)學(xué)建模比賽中用過础浮。

    • 提問反轉(zhuǎn)環(huán)節(jié)
      ①我問在騰訊我要怎么能得到系統(tǒng)性的成長。
      ②我問在騰訊的工作強(qiáng)度是怎么樣的库物。

  • 自我介紹:
    和一面一樣霸旗,不過面試官遇到感興趣的內(nèi)容會直接打斷來問你。

    • 比賽戚揭、項目提問
      這次項目問了很多算法實現(xiàn)的步驟诱告,以及項目中遇到的難點(diǎn),但都能回答的很順暢民晒。

    • 機(jī)器學(xué)習(xí)
      ①面試官:為什么會發(fā)生過擬合精居?
      簡要:我講了先前總結(jié)過的幾種情況。

    ②面試官:那如何降低過擬合潜必?
    簡要:講了幾種降低過擬合的方法靴姿,這個面試官一直問:還有嗎?強(qiáng)行憋出了6個。(降低模型復(fù)雜度、增大數(shù)據(jù)集诞吱、dropout瓶竭、正則化、集成模型、BN)

    ③面試官:講下正則化
    簡要:講了L0\L1\L2,L1和L2的具體形式和反向傳播的時梯度的推導(dǎo)公式、以及它們?nèi)绾谓档瓦^擬合都詳細(xì)說了吱型。

    ④面試官:泛化誤差如何產(chǎn)生,有哪些方法可以減性山觥津滞?
    簡要:講了泛化誤差的展開式铝侵,分別說了從bias、var和噪聲三個方面減小触徐,并說了相關(guān)的方式咪鲜,以及如何平衡bias和var。

    ⑤面試官:講下dropout原理锌介。
    簡要:從背景嗜诀、原理、實現(xiàn)詳細(xì)介紹孔祸。

    ⑥面試官:dropout訓(xùn)練和測試有什么區(qū)別嗎隆敢?
    簡要:從期望的角度,說明了訓(xùn)練時要除以概率p崔慧,或者測試時乘概率p拂蝎。

    • 強(qiáng)化學(xué)習(xí)
      ①面試官:on-policy 和off-polic的區(qū)別
      簡要:先從蒙特卡洛強(qiáng)化學(xué)習(xí)的同策略和異策略模型來說明;再根據(jù)q-learning和sarsa的區(qū)別來說明惶室。

    ②面試官:貪心策略和確定性策略區(qū)別

    簡要:從選擇action的概率的角度温自,介紹了區(qū)別,并介紹了兩種貪心策略:epsilon和softmax

    ③面試官:有一些真實例子皇钞,還有一個模擬器悼泌,如何訓(xùn)練一個強(qiáng)化學(xué)習(xí)模型?(這個就是他們目前面臨的問題)

    簡要:講了可以先用直接模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)夹界,然后再用一個強(qiáng)化學(xué)習(xí)的模型馆里。

    ④面試官:直接模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)具體說下
    簡要:就按《機(jī)器學(xué)習(xí)》(西瓜書)中學(xué)到的詳細(xì)說了。但逆強(qiáng)化學(xué)習(xí)沒說太清楚可柿。

    ④面試官:強(qiáng)化學(xué)習(xí)的baseline
    簡要:我懵了鸠踪,因為我項目是用深度學(xué)習(xí)做多目標(biāo)跟蹤的,對于強(qiáng)化學(xué)習(xí)只學(xué)了一些基本框架和基本的理論知識复斥,但是還沒時間去看過強(qiáng)化學(xué)習(xí)的論文营密,所以不懂啊。然后面試官最后告訴我說就是采用一個隨機(jī)選擇action的策略目锭。评汰。。

    • 算法題
      ①求二維矩陣的人臉個數(shù)
      簡要:和leetcode的求島嶼數(shù)量那題非常像痢虹,算是medium的键俱,剛好復(fù)習(xí)過,就秒解了世分,大概40行左右的代碼,很順地解下來缀辩。面試官看完說沒問題臭埋。

    • 開放性問題
      ①面試官:如何對一段python代碼做加速踪央,可以自己假設(shè)代碼的應(yīng)用場景
      簡要:這個問題又榨干我了,我一開始說了5種方式(優(yōu)化算法從而減少循環(huán)次數(shù)瓢阴、調(diào)整if elif語句的順序畅蹂、核心模塊用cython、多線程多進(jìn)程荣恐、生成器減少內(nèi)存占用量)

    ②面試官:追問了多線程和多進(jìn)程是什么液斜?
    簡要:詳細(xì)說了區(qū)別,以及python中的實現(xiàn)叠穆,并說python沒辦法利用多線程少漆,因為有GIL,面試官說他沒聽過硼被,問我是不是真的示损,然后讓我講一下GIL,我也詳細(xì)講了GIL的流程嚷硫。

    ③面試官:還有什么辦法可以加速python代碼嗎检访?提示說可以假設(shè)是一個訓(xùn)練神經(jīng)網(wǎng)絡(luò)的場景。
    簡要:我補(bǔ)充說可以用GPU仔掸、batchsize脆贵。然后面試官繼續(xù)追問還有沒有,最后他說了cpu加載數(shù)據(jù)和gpu訓(xùn)練數(shù)據(jù)的差異起暮,如果只用cpu加載卖氨,那發(fā)揮不出gpu的優(yōu)勢,可以用異步來加速鞋怀,即先加載一部分?jǐn)?shù)據(jù)到緩存双泪。【我有一種醍醐灌頂?shù)母杏X】

    ④面試官:GPU如何加速密似?
    簡要:不懂焙矛。。

    • 提問反轉(zhuǎn)環(huán)節(jié)
      ①我問他們部門的工作機(jī)制是怎么樣的

    ②我問通過今天的面試残腌,覺得我哪些方面需要加強(qiáng)
    面試官說覺得我基礎(chǔ)挺不錯的村斟,但是缺乏經(jīng)驗,如果過去實習(xí)的話抛猫,需要適應(yīng)一段時間他們的節(jié)奏蟆盹。(當(dāng)時我感覺涼了,沒想到過了兩天給我發(fā)了offer)

  • 比賽&項目:對用到的模型的原理都要能清晰地說出來闺金,以及難點(diǎn)逾滥、創(chuàng)新點(diǎn),都要明確败匹。* 機(jī)器學(xué)習(xí)(傳統(tǒng)\深度學(xué)習(xí)\強(qiáng)化學(xué)習(xí)):大廠考察的基本都是底層的原理寨昙,要了解每個知識點(diǎn)的原理讥巡,最好是能用代碼自己實現(xiàn)過,這樣理解得更深舔哪。并且在準(zhǔn)備的時候需要以點(diǎn)帶面欢顷,在一個知識點(diǎn)涉及到的內(nèi)容都要去掌握,因為面試官是串聯(lián)式地提問的捉蚤,也就是對你之前回答的內(nèi)容中再提取新問題抬驴,如果你不懂,那就是相當(dāng)于是給自己挖坑缆巧。對主流的框架要掌握布持,尤其是崗位對口的那個方向的相關(guān)方法,至少了解原理和步驟以及創(chuàng)新點(diǎn)盅蝗,最好是用代碼實現(xiàn)過鳖链,并且有自己的一兩點(diǎn)想法。* 語言:AI相關(guān)崗位的話基本是用python墩莫,要對python的語言特性有全面的了解芙委,還需要知道它們的應(yīng)用場景。* 數(shù)據(jù)結(jié)構(gòu)與算法:按分類來刷leetcode的題狂秦,一開始刷的時候先找經(jīng)典的題灌侣,然后一題多練,經(jīng)典的題至少做3遍裂问,有利于記下每類的模板侧啼。題目不貪多,要精刷堪簿,即做完一題一定要去看題解痊乾,一題盡量掌握3種解法,并且都要會討論時間椭更、空間復(fù)雜度哪审。做題要限制時間,因為面試的時候虑瀑,3分鐘給你思考湿滓,然后你就得跟面試官講思路了,然后再給10分鐘寫代碼舌狗,唯手熟尓叽奥。此后我自己會每天保持刷題,這可是進(jìn)入大廠的門檻啊痛侍,我覺得這次能夠順利通過朝氓,也主要得益于3道算法題我都在指定時間內(nèi)bug-free并給出最優(yōu)解法了。* 開放性問題:在面試前,最好去了解下這個部門主要是做什么的膀篮,有哪些成果嘹狞,很可能他們會把他們遇到的問題來問你,這樣你可以有針對性地準(zhǔn)備誓竿。因為我發(fā)現(xiàn),在面試的時候是很難臨時想出什么方法的谈截。* 面試官:
    ①一面的面試官問的問題很廣泛筷屡,基本各個方面都問到了,加上項目和比賽的話應(yīng)該有30個問題左右簸喂,但是問的方式很簡單毙死,基本上就是:說下xx方法。那么你就可以根據(jù)你準(zhǔn)備到的來回答喻鳄,并且是串聯(lián)式的提問扼倘,即根據(jù)你對上一個問題的回答中提取內(nèi)容來提問,所以你要對自己說的話負(fù)責(zé)除呵,哈哈再菊,說到的東西就一定要懂,至少能說出原理颜曾,否則就干脆不要說纠拔,不然被問倒了就是坑自己。
    ②二面的面試官泛豪,差不多20個問題左右稠诲,但會更深入,并且提問的方式更難诡曙,主要提問方式是:說下有哪些方法可以解決xx問題臀叙?這比一面的那種提問方式難多了,因為需要你對這些方法有一個整體的認(rèn)識价卤,你的腦子里要有一個思維導(dǎo)圖劝萤,或者說一個知識體系,這樣的問法本身就更深入荠雕。所以腭面的體驗更差稳其,就是感覺被面試官榨干了,我說了所有自己所知道的方法炸卑,面試官還一直說:還有嗎既鞠?還有嗎?這樣面試完就沒有一面時的那種舒暢盖文,因為總感覺自己掌握的不全面嘱蛋,很有可能涼。但其實大部分都是可以準(zhǔn)備到的,有一兩個點(diǎn)是需要大量的經(jīng)驗累積才會知道洒敏,所以這也不會有太大影響龄恋。

  • 神經(jīng)網(wǎng)絡(luò)解決梯度爆炸的方。

  • follow-up: dropout的tf實現(xiàn)凶伙,

  • BN, dropout FC 連接的順序郭毕? BN和dropout連在一起會有什么問題

  • CRF理解、作用

  • coding: 最大連續(xù)子數(shù)組

  • 場景題: IR-QA實現(xiàn)方式

  • 語義匹配模型函荣,(represent-based and interaction-based)

  • 場景題显押。問了很多KBQA IRQA實現(xiàn)設(shè)計細(xì)節(jié)

  • 什么時候會導(dǎo)致梯度不可導(dǎo)

  • DL中的廣播機(jī)制

  • BERT原理和應(yīng)用。GPT BERT區(qū)別傻挂。預(yù)訓(xùn)練模型演進(jìn)乘碑。

  • HR面常見的問題,工作性格期望薪資等

  • 總體體驗還不錯

  • Offer

小紅書

  • coding: 也是分詞問題金拒。輸入詞典和query兽肤,輸出分詞結(jié)果
  • ML基礎(chǔ)問題很少。GBDT/XGboost/lightGBM
  • 場景題很多绪抛。lexicon怎么收集 擴(kuò)展资铡,訓(xùn)練數(shù)據(jù)怎么收集。
  • 面經(jīng)這么少是因為我真的記不清問了哪些技術(shù)相關(guān)的問題……小紅書的面試體驗就比較差了睦疫,流程(每面之間等待的時間比較長)害驹、態(tài)度……、技術(shù)體驗都相對比較差蛤育,我一度覺得面試官對技術(shù)不太了解宛官,或者說已經(jīng)不在一線技術(shù)了。
  • 因為簡歷上寫了了解hadoop瓦糕、spark之類的底洗,問我是看過還是做過項目,回答自己在學(xué)咕娄,搭建了虛擬集群亥揖,然后被問了pyspark中的dataframe和什么中(沒聽清)的dataframe有什么區(qū)別
    估計是聽我已經(jīng)搭建了虛擬集群,就認(rèn)為比較熟悉了圣勒?但是我還沒有怎么用起來過
    本來就有點(diǎn)緊張费变,這個問題直接懵逼了,然后就跳過下一個了

    • 繼續(xù)追問項目(深度學(xué)習(xí)項目)中的細(xì)節(jié)圣贸,項目中用了聚類和循環(huán)神經(jīng)網(wǎng)絡(luò)挚歧,就問循環(huán)神經(jīng)網(wǎng)絡(luò)是怎么搭建的、怎么調(diào)整設(shè)置超參的吁峻、訓(xùn)練用了多久之類的滑负,lstm為什么比rnn的效果好

    • 除過tensorflow還知道其他深度學(xué)習(xí)框架嗎

    • 還知道其他聚類算法嗎

    • 情境分析在张?假設(shè)某一產(chǎn)品銷售量突然下降,你該如何分析它矮慕?

    • 了解一般的機(jī)器學(xué)習(xí)嗎帮匾,隨機(jī)森林、xgboost痴鳄、gbdt之間有什么區(qū)別和聯(lián)系

    • 介紹one-hot瘟斜,為什么采用one-hot

    • 了解分類模型嗎,怎么處理數(shù)據(jù)不平衡

    • 過擬合原因及處理方法

3.DL基礎(chǔ)(正則化夏跷,數(shù)據(jù)不平衡哼转,negative sampling)

4.coding(找到小于N的素數(shù)個數(shù),一開始給了naive的遍歷槽华,后來想到了篩法)

二面:

被虐暴的一面。趟妥。

1.介紹公司做的項目

2.ML基礎(chǔ)(手推LR猫态,stacking/boosting/bagging的區(qū)別,如何理解L1/L2正則化)

3.Coding(手?jǐn)]heapsort披摄。亲雪。可憐我之前最多是用一用python的heapq包啊啊啊啊疚膊。义辕。。)

鏈表寓盗,隊

判斷兩個鏈表相交

不用+-*/灌砖,讓一個數(shù)擴(kuò)大7倍

測試開發(fā)要做些什么

邏輯地址和物理地址

3.6(視頻面試)

自我介紹

介紹一個項目

線程和進(jìn)程的區(qū)別,優(yōu)缺點(diǎn)

編程(輸入數(shù)組b, 把b1*b2+1傀蚌,放回b1,b2基显;問最后數(shù)組最大值最小值)

騰訊:(騰訊科技 北京 運(yùn)營開發(fā))

3.11(電話面試)

自我介紹

項目中遇到的問題,是怎么解決的

StringBuilder和StringBuffer的區(qū)別

數(shù)據(jù)庫中善炫,左刪右刪和***的區(qū)別

Equals和==的區(qū)別

字節(jié)跳動(測試)

3.17

自我介紹

實習(xí)時測試的情況

數(shù)據(jù)庫索引(B+樹)

TCP三次握手

TCP為什么是安全的

TCP四次揮手

HTTPS三次(撩幽?)(握手還是協(xié)議來著)(?)

Linux查詢語句

單鏈表找環(huán)算法(口述)

返回單鏈表倒數(shù)第k個數(shù)據(jù)(口述)

測試一個大樓里新裝的電梯

測試支付寶綁定信用卡功能箩艺,客戶端窜醉,服務(wù)器端

0概率p,1概率1-p艺谆,構(gòu)造一個方法使得兩個都是1/2(口述)

編程:輸入鏈表排序

3.22 滴滴出行(測試 電話面試)

項目是什么榨惰,重難點(diǎn)

Spring框架了解多少

本地上傳視頻至服務(wù)器,測試

上傳不成功擂涛,怎么debug读串,怎么找是前端還是后臺的問題

如何實現(xiàn)多線程

3.30 騰訊 (后臺開發(fā) 電話面試)

Linux指令

Java基本數(shù)據(jù)類型有哪些

==和equals()什么區(qū)別:

TCP和UDP什么區(qū)別:

Time_wait出現(xiàn)在什么位置:

數(shù)據(jù)庫索引的優(yōu)缺點(diǎn):

數(shù)據(jù)庫的鎖:

抓包:

項目難點(diǎn):怎么判斷勝利和失敗

排序算法有哪些聊记,歸并排序的偽算法是什么

數(shù)組和鏈表區(qū)別

面試一共兩輪,第一輪技術(shù)面試恢暖,第二輪是主管+hr(可能會問項目排监,技術(shù)涉及不多)

1. arraylist初始大小為5,添加15個元素杰捂,會報錯嗎舆床?

2. 有沒有遇到過數(shù)據(jù)庫死鎖?講講x鎖和s鎖的區(qū)別嫁佳。死鎖和數(shù)據(jù)庫索引有關(guān)嗎

3. 推薦使用mysql存儲過程嗎?

4. 線程池用什么類挨队?get是干什么的?(submit future中的get)

5. 重復(fù)元素怎么快速去重蒿往,如果要保持有序呢盛垦?(考察數(shù)據(jù)結(jié)構(gòu))

6. 策略模式知道嗎?單例模式

7. 用過mybatis嗎瓤漏?原理腾夯?

8. 兩個包下有同樣的類名,Spring允許用依賴注入加載嗎蔬充?

9. ==和equals區(qū)別

10. 如果某個字段是非必填的蝶俱,在設(shè)計該字段相關(guān)的方法時參數(shù)設(shè)計為int還是Integer?(考察int和Integer區(qū)別)

11. Inner join和left join的區(qū)別

12. static靜態(tài)變量饥漫,用在什么地方榨呆,修飾變量和方法的作用

13. Java和其他語言的區(qū)別以及繼承、封裝庸队、多態(tài)积蜻。

14.快排

15.平衡二叉樹和為什么要有平衡二叉樹(二叉搜索樹的性能退化),以及了解紅黑樹嗎

記得也有問jvm相關(guān)的問題皿哨,具體什么記不清楚了

全程結(jié)合我的論文在問浅侨,我是做推薦系統(tǒng)的:

1. 解釋你的論文該如何應(yīng)用到真實場景中去

2. 介紹你的數(shù)據(jù)集

3. 怎么求的地理區(qū)域的用戶偏好(我是做興趣點(diǎn)推薦的)

4. 用戶歷史記錄特別稀疏的時候怎么辦

5. 如何進(jìn)行TOP-K的推薦

6. LR的優(yōu)缺點(diǎn)

7. 手推LR損失函數(shù)(口頭推導(dǎo)的)

8. L1與L2的區(qū)別聯(lián)系

9. AUC的實現(xiàn)方式

10. 協(xié)同過濾中UserBased和ItemBased的區(qū)別和應(yīng)用場景

11. GBDT介紹一下

12. 協(xié)同過濾中的一個較深的知識點(diǎn),忘記了证膨,反正我沒會回答上

13. 算法題:求n個篩子和為s的概率如输,leetcode原題,媽蛋央勒,我寫出來了的不见,但是有一個判斷條件寫錯了,結(jié)果出錯崔步,然后算法題就10分鐘稳吮,面試官說8點(diǎn)要去面下一個,指出了我的錯誤就說ok了

經(jīng)驗:

1. 為了表示我的謙虛井濒,在詢問某一個知識點(diǎn)的時候灶似,我用的措辭有“我記得是列林,我印象是.....”,然后面試官說酪惭,面試的時候不要說這次詞匯希痴,一定要表示自己掌握了的

2. 可以刷一些項目(諸如競賽啥的),面試官知道我是學(xué)術(shù)型碩士春感,理解我沒有參與過工程項目

3. 面試官人很好砌创。我感覺可能撈我的這個團(tuán)隊真的是做推薦的(廣告?視頻鲫懒?)嫩实,可惜我沒把握住。

內(nèi)容生態(tài)產(chǎn)品崗窥岩,問題記不太清了甲献,大概如下:
1.我現(xiàn)在實習(xí)負(fù)責(zé)的短視頻的內(nèi)容生態(tài),然后針對于這個內(nèi)容生態(tài)細(xì)挖颂翼,例如:生態(tài)存在什么問題竟纳,怎么解決的
2.原創(chuàng)和搬運(yùn):怎么定義視頻/圖文是原創(chuàng)的,如果兩個視頻非常相似疚鲤,先發(fā)的就是原創(chuàng)嗎
垂直搬運(yùn)需不需要打壓,怎么打壓缘挑,原創(chuàng)怎么保護(hù)
3.生產(chǎn)者激勵:怎么給生產(chǎn)者劃分等級集歇,對于每一級生產(chǎn)者評估的緯度是什么,激勵的措施是什么语淘,希望不同身份/等級的生產(chǎn)者的占比達(dá)到多少
4.B站的內(nèi)容生態(tài)有什么問題诲宇,B站如果想主打別的品類,B站還可以在哪些品類找突破點(diǎn)惶翻,怎么找到這些品類找到自己的用戶姑蓝,怎么做用戶泛化
5.平時使用微博主要是干什么,能滿足你什么需求吕粗,頭條和微博的區(qū)別在哪
6.頭條有關(guān)的一些策略纺荧,比如如果要打壓新聞品類,怎么控制內(nèi)容品類的流量閥
7.信息傳播類app例如抖音颅筋、小紅書宙暇、頭條、微博等等议泵,他們的天花板用戶量級是多少(具體的數(shù)字)占贫,你怎么分析的,怎么驗證你說的是對的(這個題差點(diǎn)逼死我先口,答的一塌糊涂)
每一條進(jìn)行了細(xì)挖型奥,但是面試官態(tài)度非常好瞳收,我中間掉線了兩次,面試官都沒有不耐煩厢汹,是我答得太菜了C睢!坑匠!
頭條的面試官用實力告訴我血崭,我不應(yīng)該拒西瓜的offer,謝頭條爸爸教我做人

主要問了人工特征工程和lighgbm模型特征處理厘灼,有啥不一樣的夹纫,你為啥要構(gòu)造這特征。

然后就是一些樣本不平衡處理(重點(diǎn)聊了小樣本只有一個的時候)设凹,

神經(jīng)網(wǎng)絡(luò)利用dropout和多項式回歸利用正則項減輕過擬合的本質(zhì)是什么(為什么就能減輕過擬合了)舰讹,

我項目有用到lightgbm和xgboost模型融合,就問了為啥要這兩個模型融合闪朱,lightgbm是xgboost的改進(jìn)月匣,那你為什么還要融合呢,懵了...

項目的主要問題還是特征構(gòu)建奋姿,會問你為什么要這樣構(gòu)造特征锄开。

1. wide&deep等相關(guān)介紹。

2. 面臨的困難/注意做了啥部分称诗。

3. 怎么改善呢萍悴?現(xiàn)在讓你重新思考這個ctr預(yù)估場景上線后的場景如何提高?

下周一再不變寓免,基本上就可以等簡歷釋放其它bg撈了癣诱。

簡單總結(jié):

0. 講話要自信,不要遲疑袜香,唯唯諾諾撕予;

1. 項目要講清楚,所有點(diǎn)盡可能保證深度/廣度到位蜈首,突出自己的貢獻(xiàn)实抡;

2. 回答問題的時候,做好條理清晰點(diǎn)疾就,不要想到啥說啥澜术,會顯得很沒邏輯,面試官聽著也很難受猬腰。

一二面:

1. 算法題:無序數(shù)組找前k大的數(shù)鸟废,描述思路+復(fù)雜度分析

2. Python:callable,垃圾回收

3. 機(jī)器學(xué)習(xí)分類指標(biāo)有哪些姑荷?AUC如何計算盒延?

4. SVM和GBDT的比較缩擂?

5. attention說一下?

6. xgboost添寺?lightGBM說一下改進(jìn)點(diǎn)胯盯?

7. 隨機(jī)森林描述一下?

8. 深度學(xué)習(xí)模型壓縮有哪些方法介紹一下计露?

9. 關(guān)于項目的討論:關(guān)鍵工作博脑?負(fù)責(zé)角色?難點(diǎn)及解決方案票罐?是否有落地應(yīng)用叉趣?

10. 連續(xù)值數(shù)據(jù)特征離散化的好處?原因该押?

11. 正則化的方法疗杉?作用?原理蚕礼?

12. 常見Loss烟具?物理意義?

13. 工程相關(guān):項目中學(xué)到的東西舉例奠蹬?如何解決bug朝聋?代碼優(yōu)化?量化代碼效率囤躁?緩存機(jī)制玖翅?

14. 操作系統(tǒng)是如何執(zhí)行C++代碼的?C++智能指針介紹一下割以?

15. 統(tǒng)計學(xué)習(xí)算法舉幾個例子來?能夠如何分類应媚?分類的標(biāo)準(zhǔn)如何定義严沥?

1.lr公式推導(dǎo)
2.算法題,求a^n
3.DNN反向傳播公式推導(dǎo)
4.CNN反向傳播公式推導(dǎo)

一面問了我實習(xí)的項目中姜,考了道算法題:長度為n的數(shù)組里放了n+1個大小在[1,n]的數(shù)消玄,必然至少有一個重復(fù)的數(shù),找出來丢胚。

二面面試官對我不敢興趣翩瓜,全程不咋說話,讓我講了一下自己對NLP的理解携龟,講了一下文本分類的發(fā)展史兔跌,主流分類方法的發(fā)展,然后考了一道概率題:求一根繩子被切兩刀能組成一個三角形的概率峡蟋。

三面主管面:FM推導(dǎo)坟桅,deepfm原理华望,graph embedding,問了之前的一些項目仅乓。

四面交叉面:模型上線時應(yīng)該注意的事赖舟,如果請求過高模型服務(wù)掛了怎么辦,tensorflow和torch的區(qū)別夸楣,如何降低模型復(fù)雜度宾抓。

一面,算法題:快排非遞歸豫喧,旋轉(zhuǎn)有序數(shù)組找某個值

二面石洗,算法題:一個二維數(shù)組,上有0和1嘿棘,把所有相鄰的1給連起來劲腿,求最終有幾塊連起來的1。 L1和L2正則區(qū)別鸟妙,softmax損失函數(shù)焦人。

三面,MapReduce原理重父,聊人生理想花椭。

一面,算法題:bitmap
二面房午,算法題:鏈表去重矿辽,擴(kuò)展:刪除鏈表中的所有重復(fù)值
三面,聊人生聊理想

一面問了實習(xí)項目郭厌,算法題:旋轉(zhuǎn)有序數(shù)組找某個值
二面也偏重項目袋倔,算法題:使用O(N)復(fù)雜度完成GBDT分裂
三面還是項目,算法題:找出無序數(shù)組中相隔距離最長的逆序?qū)?br> 四面只問了項目

一面問了項目折柠,算法題:一個數(shù)組里只有0和1宾娜,把0換到1前面,不能使用統(tǒng)計次數(shù)的方法扇售。擴(kuò)展:如果有0膏斤,1赫冬,2三個數(shù)咋辦赠涮?
二面項目芭挽,算法題:無向圖的迪杰斯特拉算法實現(xiàn)。

一面困乒,算法題:在大量文本中匹配詞表

二面寂屏,算法題:字符串編輯距離,求第n個丑數(shù),最長公共子串

三面凑保,算法題:設(shè)計一個hashmap

算法精英加面一面:算法題:長度為n的數(shù)組里放了n+1個大小在[1,n]的數(shù)冈爹,必然至少有一個重復(fù)的數(shù),找出來欧引。

算法精英加面二面:純項目频伤,聊人生理想。

一面芝此,算法題:鏈表快排
二面憋肖,智力題:100個球,甲乙兩個人依次拿球婚苹,每次只能拿1-5個岸更,甲先拿,求甲必勝的方案膊升。

一面:聊項目怎炊,XGB與LGB區(qū)別,Bagging和boostting區(qū)別廓译,概率題:一個袋里有很多紅球和白球评肆,隨機(jī)拿出10個球,其中7個紅球3個白球非区,求取出一個球為紅球的概率最大是瓜挽? 這個概率題求大佬解,不會

二面:聊人生理想

三面:聊人生理想征绸,10萬個手機(jī)號排序久橙。

一面:聊項目,然后面的組是做倉儲物流算法的管怠,考了一個場景題淆衷,一個訂單調(diào)度系統(tǒng),每個訂單可以有多個商品渤弛,每類商品對應(yīng)一個貨架吭敢,倉庫里有10臺運(yùn)輸車,每臺運(yùn)輸車每次可以拿10個訂單暮芭,設(shè)計算法求如何安排訂單才能使運(yùn)輸成本最低。

二面:聊人生欲低,項目辕宏,然后考了道英文題,用英文介紹自己最喜歡的科目砾莱。

筆試:前兩道很容易瑞筐,第三道是一個線段樹的應(yīng)用
一面:聊項目,手寫代碼腊瑟,最長遞增子串聚假。
二面:聊項目块蚌,手寫代碼,大量數(shù)據(jù)中找中位數(shù)膘格。

熟悉C++/java編程語言峭范,主要研究方向是深度學(xué)習(xí)、NLP方向瘪贱,一直有l(wèi)etcode刷題的習(xí)慣纱控,有過阿里天池的比賽經(jīng)歷(大概是top15)和實驗室的項目經(jīng)歷。最后是在去年4月份的時候拿到了騰訊應(yīng)用研究崗校招提前批的Offer菜秦。

一輪面試

往年騰訊算法崗的一面是在3月中旬左右甜害,一般都是一些基礎(chǔ)的技術(shù)問題,考察你對常見機(jī)器學(xué)習(xí)算法的了解球昨,建議去Letcode尔店、牛客網(wǎng)主慰、七月在線等平臺多刷一些算法題嚣州,以及多看《劍指offer》這類面試必備的書籍。
(1)LR河哑、XGB避诽、隨機(jī)森林的原理、優(yōu)缺點(diǎn)以及應(yīng)用場景璃谨。這類問題幾乎逢面必問沙庐,不光是騰訊,美團(tuán)佳吞、頭條等其它公司也是經(jīng)常會問拱雏,建議大家好好準(zhǔn)備一下這類問題;
(2)LR和XGB算法做特征處理有什么區(qū)別底扳?隨機(jī)森林怎么進(jìn)行特征選擇铸抑?等特征處理方面相關(guān)的問題;
(3)如何判斷一個單鏈表是否有環(huán)衷模?以及環(huán)的入口鹊汛?二叉樹的求解等一些常規(guī)算法題;(鏈表和樹這類問題會常被問到)
(4)最后也會問一些簡歷相關(guān)的問題阱冶,比如:你簡歷中的項目刁憋、比賽等,而且會問的比較細(xì)木蹬。(比如:我當(dāng)時和師兄一起做了一個天池工業(yè)大數(shù)據(jù)應(yīng)用的項目至耻,被一直追著問......)

二輪面試

二面也是在3月中旬,一般是和一面隔2-4個工作日左右,我當(dāng)時是一面結(jié)束后的3天收到了二面尘颓,整體感覺和一面問的內(nèi)容差不多走触,但除了常見的機(jī)器學(xué)習(xí)問題外,還會問一些算法上的優(yōu)化疤苹、論文相關(guān)的問題互广。
(1)常規(guī)的機(jī)器學(xué)習(xí)算法問題,比如:XGB和GDBT相比有什么優(yōu)勢痰催?
(2)深度學(xué)習(xí)相關(guān)兜辞。問了RNN、Text-CNN等一些神經(jīng)網(wǎng)絡(luò)的原理和應(yīng)用夸溶;
(3)簡歷相關(guān)逸吵。相較于一面,除了比賽和項目缝裁,還問了我論文的情況扫皱,感覺二面的面試官對論文比較感興趣。捷绑。韩脑。
(4)論文相關(guān)。大概給我講一下論文的核心思想粹污,你的方法和別人的方法有什么不同段多?論文中的方法還有哪些可改進(jìn)的地方等;
(5)可能當(dāng)天面試的時間沒有那么趕壮吩,面試官還問了我有什么問題想要問他进苍?通常遇到這類問題,我的一般做法是詢問面試官針對上面某個問題的答案鸭叙,或者是針對自己簡歷中的某個比較熟悉的項目往深了探討一下觉啊。(個人的一點(diǎn)經(jīng)驗,僅供大家參考沈贝。)

三輪面試

二面后其實還是有點(diǎn)忐忑的杠人,感覺自己有幾個問題沒答好,感覺自己可能會跪~~~宋下。不過大概是兩天后還是收到了三面的邀請嗡善,感謝面試官的不殺之恩。学歧。罩引。
(1)項目相關(guān),講講你天池工業(yè)大數(shù)據(jù)的這個項目撩满,遇到了些什么問題,如何調(diào)優(yōu),你覺得還有哪些不足等等伺帘;
(2)常規(guī)算法題昭躺,鏈表、topk的解法等伪嫁。因為從本科就一直有在Letcode刷題的習(xí)慣领炫,所以最不擔(dān)心的就是這類問題,哈哈张咳;
(3)對深度學(xué)習(xí)了解的多嗎帝洪?Bert有用過嗎?講講Attention脚猾,講講深度學(xué)習(xí)不平衡分類算法葱峡;
(4)最后就是一些討論,有問過我如何去落地一個機(jī)器學(xué)習(xí)項目龙助,并且面試官給了他的看法砰奕。感覺騰訊的面試官,人都非常nice提鸟,沒有想象中的那么嚴(yán)军援。

四輪面試

三面過后等了大概一周左右,迎來了四面称勋。騰訊技術(shù)崗的四面才是總監(jiān)面胸哥,后來才知道我四面的面試官是隔壁中心的一個總監(jiān),據(jù)說都快要上GM了赡鲜】昭幔總監(jiān)面相較于前面的三輪面試,最大的感受是他會問針對某個問題或是項目的解決思路蝗蛙,不會針對某個算法扣的太細(xì)蝇庭。
(1)針對高維數(shù)據(jù),如何做特征選擇的捡硅?
(2)問了幾種評價指標(biāo)哮内,以及在項目實際上線時候關(guān)注的指標(biāo);
(3)ID3壮韭、C4.5北发、CART樹是什么?分別說下它們的優(yōu)勢喷屋?
(4)問了一下簡歷中項目是怎么完成琳拨,怎么落地的,自己在團(tuán)隊中扮演什么角***r /> (5)聊了一下論文和學(xué)校的事屯曹;
(6)最后還讓我做了個簡單的自我評價狱庇,問了我有什么缺點(diǎn)惊畏,哈哈~

HR面試

通常,過了總監(jiān)面有80%以上的概率差不多可以上岸了密任,只要你在HR面中規(guī)中矩的答下來颜启,盡量用肯定的語氣讓HR覺得你很想留下來,盡量多說浪讳,引導(dǎo)HR的思路缰盏,不要只說一句,也不要做杠精淹遵。口猜。。
(1)談?wù)勀阍谛F陂g最難忘的經(jīng)歷透揣;
(2)項目中遇到最大的困難是什么济炎?如何解決的?
(3)怎么看待AI整個行業(yè)的發(fā)展淌实?
(4)有女朋友嗎冻辩?讀書還是工作?(典型的查戶口啊......)
(5)除了騰訊拆祈,最想去的公司是哪恨闪?為什么?
(6)還有什么要問我的嗎放坏?
......

最后咙咽,大概是將近一周多的時間拿到了Offer,后面就順利實習(xí)淤年,感覺我們組的工作氛圍還是蠻不錯的钧敞。

【總結(jié)】

騰訊機(jī)器學(xué)習(xí)算法崗的面試算是非常正規(guī)的了,整套面試流程下來幾乎能把你幾年所學(xué)的東西都問到麸粮。所以溉苛,不要存在僥幸心理,踏踏實實的刷題弄诲,復(fù)習(xí)好常規(guī)機(jī)器學(xué)習(xí)算法愚战,尤其是算法的原理和應(yīng)用場景。

另外齐遵,項目和比賽經(jīng)歷非常的重要寂玲,往往面試官都是根據(jù)項目里用到的方法拓展提問,對項目的優(yōu)化和改進(jìn)也問的比較多梗摇。還有就是能內(nèi)推的一定去找學(xué)長學(xué)姐或是其它資源去內(nèi)推

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拓哟,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子伶授,更是在濱河造成了極大的恐慌断序,老刑警劉巖流纹,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異违诗,居然都是意外死亡捧颅,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進(jìn)店門较雕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人挚币,你說我怎么就攤上這事亮蒋。” “怎么了妆毕?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵慎玖,是天一觀的道長。 經(jīng)常有香客問我笛粘,道長趁怔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任薪前,我火速辦了婚禮润努,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘示括。我一直安慰自己铺浇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布垛膝。 她就那樣靜靜地躺著鳍侣,像睡著了一般。 火紅的嫁衣襯著肌膚如雪吼拥。 梳的紋絲不亂的頭發(fā)上倚聚,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天,我揣著相機(jī)與錄音凿可,去河邊找鬼惑折。 笑死,一個胖子當(dāng)著我的面吹牛矿酵,可吹牛的內(nèi)容都是我干的唬复。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼全肮,長吁一口氣:“原來是場噩夢啊……” “哼敞咧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辜腺,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤休建,失蹤者是張志新(化名)和其女友劉穎乍恐,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體测砂,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡茵烈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了砌些。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片呜投。...
    茶點(diǎn)故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖存璃,靈堂內(nèi)的尸體忽然破棺而出仑荐,到底是詐尸還是另有隱情,我是刑警寧澤纵东,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布粘招,位于F島的核電站,受9級特大地震影響偎球,放射性物質(zhì)發(fā)生泄漏洒扎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一衰絮、第九天 我趴在偏房一處隱蔽的房頂上張望袍冷。 院中可真熱鬧,春花似錦猫牡、人聲如沸难裆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乃戈。三九已至,卻和暖如春亩进,著一層夾襖步出監(jiān)牢的瞬間症虑,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工归薛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谍憔,地道東北人。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓主籍,卻偏偏與公主長得像习贫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子千元,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評論 2 353