算法工程師面經(jīng)（搜狐境蔼、數(shù)旦灶平、好未來）

算法工程師面經(jīng)

2018年3月13日

搜狐一面

主要問了我碩士期間做的新聞推薦系統(tǒng)是什么伺通，我講了大約20分鐘balabala。然后針對于這個新聞推薦系統(tǒng)提出了一系列的問題：

1.你用到了LDA逢享，那么請講一下LDA的原理是什么罐监？我簡單說了一下LDA生成文檔的過程，但是根據(jù)什么生成沒答上來2333（LDA是我的痛瞒爬，看了幾遍沒看懂）

2.你的新聞的備選集如何獲裙？選取當天新聞侧但，挨個算一遍矢空。

3.也就是說你的計算是現(xiàn)場算的么？是的俊犯，我知道這樣效率有問題妇多，我的系統(tǒng)中沒有解決，但是可以先對新聞進行聚類燕侠，然后對每個簇提出一個模型者祖，先匹配簇在選擇新聞（SCENE 論文中的方法）

4.你的數(shù)據(jù)量有多大？3萬多條新聞绢彤，100個用戶吧七问。

5.你的用戶較少，那么在推薦的時候矩陣一定是稀疏的茫舶，對于這個稀疏矩陣應該如何處理械巡？可以用PCA或者SVD進行矩陣分解

6.你的關鍵字是如何從文檔中提取出來的？使用了中科院的NLPIR+TF-IDF算法饶氏。

7.講一講tf-idf是什么意思讥耗，TF就是表示詞頻，IDF是逆文檔頻率的意思計算方法為log(N/n)疹启，N新聞集的大小古程，n為包含這個詞的新聞的數(shù)量

8.你系統(tǒng)使用什么語言實現(xiàn)的？Java

9.hashmap你用過么喊崖，底層是如何實現(xiàn)的挣磨？這個我不太清楚呢。見http://blog.csdn.net/yinbingqiu/article/details/60965080

10.計算機網(wǎng)絡你有學過吧荤懂，還記得什么么茁裙？記不清太多了時間太久了。其實可以說說TCPIP节仿，網(wǎng)絡5層結構之類的

11.你說你做過Android? Android的生命周期是什么晤锥？忘記了。廊宪。

12.你用過Python 那么你Python都用過哪些機器學習的庫矾瘾？Scikit-learn眉踱，numpy，OpenCV 和dlib（其實還有LibLinear忘記說了）

13.好了霜威，那么你覺著你自己都有哪些優(yōu)點呢？册烈。戈泼。。赏僧。大猛。。淀零。挽绩。

總而言之第一次面試毫無疑問的跪了

2018年3月15日

金山WPS

1.自我介紹巴拉巴拉

2.項目

3.深度學習！

深度學習驾中！深度學習唉堪！

結論就是大家投崗位一定要看好是不是適合自己

2018年3月16日

數(shù)旦科技一面

1.數(shù)據(jù)庫三范式（不記得了）

2.bagging? 和boosting? 哪個可以讓結果的方差更小一些，為什么肩民？

偏差：偏差越大準確率越低唠亚，偏差越小準確度越高

方差：方差越大的模型越容易過擬合，方差越小越不容易過擬合

bagging減少方差（通過隨機抽樣和投票減少過擬合）持痰，boosting減少偏差（通過不斷擬合殘差來讓偏差更性钏选）

3.你都知道哪些分類算法

LR，SVM工窍，決策樹割卖，隨機森林，Adaboost患雏，GDBT鹏溯，Xgboost，樸素貝葉斯

4.bagging 和boosting的區(qū)別是什么

bagging的思想就是分別訓練多個沒有相關性的基分類器纵苛，每個基分類器在訓練的時候剿涮，需要從樣本集合有又放回的選擇部分樣本作為訓練集。訓練完成以后通過攻人，多數(shù)表決（分類問題）取试、簡單平均（回歸問題），的得到最后的結果怀吻。

bagging的最大優(yōu)點是可以并行化瞬浓。

bagging的典型代表就是隨機森林。

而boosting是一個串行的過程蓬坡，下一個基學習器要基于上一個基學習器的結果來進行學習猿棉，從而一步一步的逼近真實的結果磅叛。

5.排序算法都有什么？當一個數(shù)據(jù)特別亂序的時候使用哪個排序算法更好一些

堆排序萨赁，最壞O（nlogn）弊琴，雖然歸并也可以O（nlogn），但是堆的空間復雜度為O（1）所以更好一些

6.你論文都怎么搜索的杖爽，如何保證質量敲董？如何保證搜索結果是完整的？

Web of science慰安、百度腋寨、谷歌，講了用ccf和Jcr分區(qū)來保證論文基本質量化焕，通過摘要Intruction的后兩段還有Conclusion來初步判斷論文講的什么之類的萄窜。

7.面向對象多態(tài)? 繼承的關系

這個說的不好，有興趣自己看就行

8.面對大數(shù)據(jù)量的推薦應該如何實現(xiàn)

算法上面撒桨，SVD降維查刻，聚類

結構上面，分布式文件管理系統(tǒng)

分布式計算框架（Hadoop元莫、MapReduce等）

并行計算

9.說說協(xié)同過濾是怎么回事

說了基于用戶和基于物品的協(xié)同過濾及原理

10.你常用的推薦算法都有什么

基于內容與協(xié)同過濾（評分推薦的話主要用矩陣分解）

11.集成學習為什么要用簡單的基學習器赖阻，不用一個復雜一點的學習器

為了防止過擬合啊

12.非線性的數(shù)據(jù)，可以使用什么分類器進行分類

總結一下踱蠢，這個公司其實還有二面火欧，但是二面由于沒有什么有價值的內容所以就不寫了，只問了一下隨機森林的原理

2018年3月21日

好未來一面

視頻面試好卡2333333茎截，小哥主要是做NLP的苇侵，和我方向不是很對口，所以其實東西問的不是很多

項目企锌，把隱式反饋和顯式反饋結合的用戶興趣計算方法（我感覺小哥聽得有點蒙榆浓，畢竟不是做推薦的）

1.用過什么語言，用沒用過R撕攒，語言都干什么用的

Python陡鹃，Java。新聞推薦系統(tǒng)用Java寫的抖坪，機器學習模型什么的用Python跑的萍鲸。

2.樸素貝葉斯原理

說了貝葉斯公式、屬性獨立性假設擦俐，以及貝葉斯的優(yōu)缺點

3.TF-IDF原理

這個簡單脊阴。不說了

4.性能評價指標，準確率召回率是怎么回事，二分類和多分類的評價方法

準確率召回率嘿期。品擎。不解釋。忘了提Roc曲線和Auc面積

5.除了推薦方面的東西备徐，你還做過一些別的事情么

說了自己練習的工資分類萄传，take home test的電商詐騙檢測

6.用過scikit-learn numpy么（pandas還有其他的沒用過）

用過scikit-learn numpy沒用過pandas

7.LDA你是怎么用的，LDA的表現(xiàn)如何蜜猾，主題分的效果好不好

改的別人的代碼盲再，表現(xiàn)還好，但是運行效率很差瓣铣。最后的主題分析效果還行，但是由于新聞量和主題定義的數(shù)量不夠多贷揽，導致有些主題劃分的不夠純粹和細致棠笑。

8.你覺得基于內容的方法和協(xié)同過濾有什么不同

談了協(xié)同過濾的冷啟動和原因，基于內容的優(yōu)缺點（準確禽绪，但無法發(fā)現(xiàn)用戶的新興趣）

9.還有就是一些基本情況了蓖救，用沒用過數(shù)據(jù)庫啊之類的，數(shù)據(jù)庫用的怎么樣sql會不會

小哥大概的意思是把我的簡歷踢到推薦相關的部門去了

最后編輯于：2018.03.21 14:32:11

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末印屁，一起剝皮案震驚了整個濱河市循捺，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌雄人，老刑警劉巖从橘，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異础钠，居然都是意外死亡恰力，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門旗吁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來踩萎，“玉大人，你說我怎么就攤上這事很钓∠愀” “怎么了？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵码倦，是天一觀的道長企孩。經(jīng)常有香客問我，道長叹洲，這世上最難降的妖魔是什么柠硕？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上蝗柔，老公的妹妹穿的比我還像新娘闻葵。我一直安慰自己，他們只是感情好癣丧，可當我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布槽畔。她就那樣靜靜地躺著，像睡著了一般胁编。火紅的嫁衣襯著肌膚如雪厢钧。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天嬉橙，我揣著相機與錄音早直，去河邊找鬼。笑死市框，一個胖子當著我的面吹牛霞扬，可吹牛的內容都是我干的。我是一名探鬼主播枫振，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼喻圃，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了粪滤？” 一聲冷哼從身側響起斧拍，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎杖小，沒想到半個月后肆汹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡予权，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年县踢，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伟件。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡硼啤，死狀恐怖，靈堂內的尸體忽然破棺而出斧账，到底是詐尸還是另有隱情谴返，我是刑警寧澤，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布咧织，位于F島的核電站嗓袱，受9級特大地震影響，放射性物質發(fā)生泄漏习绢。R本人自食惡果不足惜渠抹，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一蝙昙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧梧却，春花似錦奇颠、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案烈拒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至广鳍，卻和暖如春荆几，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背赊时。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工吨铸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人祖秒。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓焊傅，卻偏偏與公主長得像，于是被迫代替她去往敵國和親狈涮。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,884評論 2贊 354

算法工程師面經(jīng)（搜狐磷仰、數(shù)旦、好未來）