主講人介紹
蒲博士希痴,統(tǒng)計學博士
2007年-2011年在上海交大讀核工程專業(yè)
2011年-2013年在明尼蘇達大學讀物理專業(yè)
2013年-2017年在加州大學圣地亞哥分校讀統(tǒng)計學專業(yè)
即將畢業(yè)前往硅谷的一家明星企業(yè)做數(shù)據(jù)科學家
主要內容
讀統(tǒng)計學專業(yè)的心路歷程
讀博期間的暑期實習經驗
找數(shù)據(jù)科學家工作的經歷
一撞蚕、踏上統(tǒng)計學之路
(一)起因
碩士期間主修物理,同時也選修了統(tǒng)計課纺铭,發(fā)現(xiàn)對統(tǒng)計學的理解比對物理的理解更容易刀疙,且統(tǒng)計學專業(yè)更容易找工作,因此谦秧,決定繼續(xù)深造疚鲤,申請統(tǒng)計學博士。
(二)努力轉型
因碩士期間沒有數(shù)學基礎與背景集歇,所以選擇課程自行學習并且拿到統(tǒng)計學教授的推薦信。
(三)讀博經歷
統(tǒng)計博士的學位要求:
1.完成課程
2.通過筆試
3.開題報告
4.發(fā)論文际歼,參加會議
5.博士論文答辯
讀博期間的課題領域:稀疏PCA姑蓝,稀疏聚類,非參數(shù)/半?yún)?shù)統(tǒng)計旭愧,高維統(tǒng)計
讀博期間的paper:
1.from sparse PCA to sparse clustering
2.a simple approach to sparse clustering
3.Semiparametric Estimation of Symmetric Mixture Models with Monotone and Log-Concave Densities
4.Concentration of Measure for Radial Distributions and Consequences for Statistical Modeling
讀博期間的業(yè)余生活:攀巖宙暇、游泳、觀光、徒步等
讀博的出路:
總結:學術界并不好走,首先要能發(fā)表含金量高的論文桩引,其次導師在學術界有一定的權威,最后要有溝通與教學的能力(而且教學的付出與收入不成正比)
那么博士進入工業(yè)界又有什么要求呢血崭?
二、暑期實習
主要任務:利用機器學習的模型預測廣告點擊率(CTR),進而給不同的用戶推薦不同的廣告闪朱,提高廣告營收。
擴展知識:線上廣告推廣
總結:
- 谷歌、facebook的主要盈利靠的是廣告
- 廣告市場有非常大的挖掘價值
CPM:按展示收費——彈出窗口
CPC:按點擊付費——點擊廣告
CPV:展示廣告——按投放廣告網(wǎng)站的被展示次數(shù)計費萍悴,網(wǎng)站被打開一次計一次費(引自CPC粪狼、CPM、CPA再榄、CPS困鸥、CPT、CPV的區(qū)別)
繼續(xù)yahoo實習的話題疾就,通過對擴展知識的了解,我們對廣告模式有了一定的了解鸟废。
在yahoo公司的實習主要任務是預測廣告的CTR姑荷。
解決步驟:
1.收集數(shù)據(jù)缩擂,包括用戶的信息(年齡添寺、性別、薪水等)计露、廣告的信息票罐、廣告供應商的信息等。
2.數(shù)據(jù)清洗
3.提取有用的變量胶坠,訓練模型
4.用模型預測用戶的點擊率
5.做線下實驗,查看預測成功率
6.線上實驗(步驟5成功后才執(zhí)行步驟6)
實際上乡数,預測廣告的CTR是一個分類問題闻牡,因為廣告被點擊,標志設為“1”玖翅;相反地割以,廣告沒被點擊,標志設為“0”严沥。我們關注的并非是廣告是否被點擊,而是預測點擊的概率有多少跟伏。
預測中使用的模型是邏輯回歸模型翩瓜,典型的監(jiān)督學習算法,也是典型的分類算法勘高。
真正在CTR預測中運用的模型是決策樹、GDBT华望、邏輯回歸算法。
擴展:分類算法
非參數(shù)模型:最鄰近算法、決策樹
參數(shù)模型:樸素貝葉斯算法方灾、邏輯回歸算法、線性判別式分析(LDA)洞慎、支持向量機(SVM)
集成方法:隨機森林嘿棘、Adaboost算法、GDBT
三焦人、找工作經歷
筆記總結:
1.轉專業(yè)需要很大的勇氣花椭,最重要的是要看自己擅長什么房午、感興趣的是什么
2.想要做的事情就盡全力去做,并且要提高自主學習能力
3.三思而后行郭厌,謹慎一點,對自己的人生負責
4.經驗是寶貴的宾娜,能力是可提升的
5.軟硬能力兩手抓液走,每天進步一點點
6.知道自己目前的優(yōu)劣點,有意識的彌補自己的不足
最后感謝蒲博士的分享嘱根,獲益良多巷懈,數(shù)據(jù)科學的道路上我們共同進步!
本文為 泰閣志-解密大數(shù)據(jù) 學習筆記顶燕,了解更多請關注微信“泰閣志”