框架:
- 梳理已經(jīng)完成的項(xiàng)目兴革,挖掘項(xiàng)目中自己的成長(zhǎng)點(diǎn)&項(xiàng)目的亮點(diǎn)&難點(diǎn)绎晃,理清項(xiàng)目的背景、意義杂曲,待優(yōu)化點(diǎn)庶艾。
- 確定自己面試的方向,搜廣推擎勘,擴(kuò)展學(xué)習(xí)基礎(chǔ)知識(shí)咱揍。
- 列出第一、二棚饵、三階段面試的公司煤裙,第一階段是用來(lái)練手的,第二階段是中廠保底的噪漾,第三階段是想去的硼砰,然后在boss直聘上開始找合適的崗位海投
- 想好官方可接受的離職原因,對(duì)下份工作的期待欣硼,對(duì)自己未來(lái)3-5年成長(zhǎng)的規(guī)劃想好自己的優(yōu)勢(shì)题翰、劣勢(shì),如何在面試中揚(yáng)長(zhǎng)避短
- 適當(dāng)[刷題]
準(zhǔn)備
1)項(xiàng)目及擴(kuò)展
項(xiàng)目過(guò)程:背景诈胜、難點(diǎn)豹障、收益、技術(shù)方案焦匈、亮點(diǎn)沼填、待優(yōu)化點(diǎn)
擴(kuò)展:
2)通用機(jī)器學(xué)習(xí)類
http://www.reibang.com/p/1b49317beb6b
3)leetcode
項(xiàng)目:
1)實(shí)體鏈指
2)實(shí)體識(shí)別
3)實(shí)體歸一
4)文本分類
1) 數(shù)據(jù)分析:
1)樣本量分布
2)長(zhǎng)度分布
3)token分布:
2)token分析:
機(jī)器學(xué)習(xí)深度研究:特征選擇中幾個(gè)重要的統(tǒng)計(jì)學(xué)概念
文本建模常用的預(yù)處理方法——特征選擇方法(CHI和IG)
過(guò)濾法(Filter):方差Var,卡方chi括授,F(xiàn)檢驗(yàn)ANOVA坞笙。先對(duì)數(shù)據(jù)集進(jìn)行特征選擇岩饼,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過(guò)程與后續(xù)學(xué)習(xí)器無(wú)關(guān)薛夜。
方差var:無(wú)法區(qū)分各類籍茧,只分析整體。每個(gè)token的重要度(tf-idf)方差大梯澜,說(shuō)明該token按重要性在樣本中分布不均勻寞冯,有區(qū)分度
卡方chi:
包裝法(Wrapper):模型優(yōu)層面。根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果評(píng)分)晚伙,每次選擇若干特征吮龄,或者排除若干特征。
嵌入法(Embedding):樹模型咆疗、線性模型漓帚。先使用機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù)午磁,根據(jù)系數(shù)從大到小選擇特征尝抖。
3)數(shù)據(jù)量分布
4)其他特征的分布
2)建模
3)迭代:數(shù)據(jù)1)
5)特征建模:
1)特征分析
單特征核密度函數(shù)
特征重要性
2)GBDT
6)預(yù)訓(xùn)練模型:attendtion transformer bert albert albertiny charcnn