何為腳踏實(shí)地?
到底做什么算是入行 AI
三個(gè)角色:算法禽炬、工程涧卵、數(shù)據(jù)
算法
日常
算法工程師:讀論文&實(shí)現(xiàn)算法-確認(rèn)是否可以落地,是否可以改善產(chǎn)品的質(zhì)量
必備能力
- 具備良好的英語基礎(chǔ)腹尖,大量閱讀英語論文的能力
- https://arxiv.org ——這里有多個(gè)學(xué)科(包括 computer science)大量的最新論文柳恐。
- 平均每周讀一篇最新論文的頻率
自測(cè)算法力
有個(gè)很簡單的驗(yàn)證方法:現(xiàn)在就去 https://arxiv.org 找一篇論文(比如這篇:Dynamic Routing Between Capsules),從頭到尾讀一遍∪柔#現(xiàn)在不懂沒關(guān)系乐设,至少先試試在不懂的情況下能不能把它從頭到尾一字不漏的讀完,有不認(rèn)識(shí)的字查字典绎巨。
學(xué)術(shù)實(shí)踐能力
讀懂論文:
- 回溯學(xué)習(xí)能力
- 數(shù)學(xué)能力
- 理論聯(lián)系實(shí)際近尚,將學(xué)術(shù)論述與產(chǎn)品市咆、業(yè)務(wù)結(jié)合的能力
- 負(fù)責(zé)實(shí)際業(yè)務(wù)問題到數(shù)學(xué)模型的抽象
創(chuàng)新型人才
不用發(fā)明梅猿,但是懂得使用算法解決不同的問題
做工程
日常工作
典型的工位:機(jī)器學(xué)習(xí)工程師(調(diào)參工程師)
注:用已知有效的方法來解決實(shí)際問題
軟件工程師的分支
說到底巡球,開發(fā)人工智能產(chǎn)品的程序員還是程序員
程序員的基本素質(zhì)
- 編碼能力
- 基礎(chǔ)算法能力
- 鏈
- 樹
- 圖的構(gòu)建
- 刪除
- 遍歷
- 排序
最基本的首先是一個(gè)合格的程序員
做工程睁搭,「機(jī)器學(xué)習(xí)」學(xué)到多深夠用
算法
- 簡單使用:了解算法的基本原理扳抽,應(yīng)用領(lǐng)域漆际,功能和局限
- 該算法的應(yīng)用領(lǐng)域是什么
- 該算法的應(yīng)用目標(biāo)是什么
- 該算法的合適應(yīng)用在怎樣的數(shù)據(jù)集會(huì)造成什么樣的影響
- 能夠獲取該算法的函數(shù)庫愚铡,調(diào)用該算法生成模型
- 模型調(diào)優(yōu):對(duì)所采用算法和對(duì)應(yīng)模型的數(shù)據(jù)公式有所了解
- 知道調(diào)用函數(shù)各個(gè)參數(shù)的意義
- 能夠通過加約束條件來優(yōu)化
- 了解當(dāng)前問題域炮姨,目標(biāo)和輸入數(shù)據(jù)確定的情況下窗价,還可以用那些其他模型可替換現(xiàn)有模型如庭,并進(jìn)行嘗試。
- 能夠多個(gè)模型弱模型加權(quán)組成強(qiáng)模型
- 運(yùn)行效率優(yōu)化:對(duì)模型本身的數(shù)學(xué)推導(dǎo)過程和模型最優(yōu)化方法有所掌握,對(duì)于各種最優(yōu)化方法的特點(diǎn)坪它、資源占用及消耗情況有所了解骤竹。
- 了解算法在當(dāng)前數(shù)據(jù)集上的運(yùn)行效率
- 了解在其他語言、平臺(tái)往毡、框架的工具包中有否同等或近似功能但在當(dāng)前應(yīng)用場(chǎng)景下效率更高的算法
- 能夠針對(duì)具體場(chǎng)景蒙揣,通過轉(zhuǎn)換模型的最優(yōu)化方法(optimizer)來改進(jìn)運(yùn)行效率。
- 該算法的應(yīng)用領(lǐng)域是什么
數(shù)據(jù)
* 具有業(yè)務(wù)含義的信息
* 運(yùn)算的數(shù)字
- 特征選瓤t。簭臉I(yè)務(wù)角度區(qū)分輸入數(shù)據(jù)包含的特征
- 對(duì)數(shù)據(jù)本身和其對(duì)應(yīng)的業(yè)務(wù)領(lǐng)域有所了解懒震。
- 能夠根據(jù)需要標(biāo)注數(shù)據(jù)。
- 知道如何從全集中通過劃分特征子集嗤详、加減特征等方法選取有效特征集个扰。
- 向量空間模型(VSM)構(gòu)建:了解如何將自然語言、圖片等人類日常使用的信息轉(zhuǎn)化成算法可以運(yùn)算的數(shù)據(jù)葱色。
- 能夠把文字递宅、語音、圖像等輸入轉(zhuǎn)化成算法所需輸入格式
- 能夠根據(jù)信息熵等指標(biāo)選取有效特征苍狰。
- 數(shù)據(jù)清洗和處理:對(duì)直接的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選并轉(zhuǎn)換為模型可處理
- 能夠運(yùn)用統(tǒng)計(jì)學(xué)方法等 ETL 手段清洗輸入數(shù)據(jù)办龄。
- 能夠?qū)?shù)據(jù)進(jìn)行歸一化(normalization), 正則化(regularization)等標(biāo)準(zhǔn)化操作淋昭。
- 能夠采用 bootstrap 等采樣方法處理有限的訓(xùn)練/測(cè)試數(shù)據(jù)俐填,以達(dá)到更好的運(yùn)算效果。
模型驗(yàn)證
模型問題:
- 這個(gè)模型的質(zhì)量如何翔忽?
- 這個(gè)模型的那個(gè)模型比較英融,哪個(gè)更適合解決當(dāng)前問題
- 在做了如此這般的優(yōu)化之后得出了一個(gè)新的模型,怎么能確認(rèn)它比舊的模型好呀打?
解決模型問題:
- 了解 bias矢赁,overfitting 等基本概念,及針對(duì)這些情況的基本改進(jìn)方法贬丛。
- 了解各種模型度量指標(biāo)(e.g. Accuracy, Precision,Recall, F1Score……)的計(jì)算方法和含義撩银,及其對(duì)模型質(zhì)量的影響。
- 能夠構(gòu)建訓(xùn)練集豺憔、測(cè)試集额获,并進(jìn)行交叉驗(yàn)證。
- 能夠運(yùn)用多種不同的驗(yàn)證方法(e.g. 2-Fold cross-validation,K-Fold cross-validation, Leave-One-Out cross-validation……)來適應(yīng)不同的數(shù)據(jù)集恭应。
做數(shù)據(jù)
最主要的數(shù)據(jù)標(biāo)注
- ETL
- 處理數(shù)據(jù)
標(biāo)注數(shù)據(jù)的重要性
雖然有無監(jiān)督學(xué)習(xí)抄邀,但是證明有直接用途的還是有監(jiān)督學(xué)習(xí)。
深度學(xué)習(xí)在應(yīng)用上比較成功:
- 圖像處理
- 語音處理
- NLP
- 自動(dòng)翻譯
- AlphaGo
上述都是依賴于海量的標(biāo)注數(shù)據(jù)
現(xiàn)階段而言昼榛,數(shù)據(jù)比算法重要境肾!重點(diǎn):
數(shù)據(jù)人工標(biāo)注的重要性
對(duì)人類真正有用的模型,還是需要人工標(biāo)注的訓(xùn)練數(shù)據(jù)。
人工標(biāo)注數(shù)據(jù)仍然是 AI 落地的必要和主流
人工智能的“勤行”
- 什么是標(biāo)注
- 核心一點(diǎn):標(biāo)注就是將原始數(shù)據(jù)內(nèi)全部或者部分內(nèi)容奥喻,按照業(yè)務(wù)需求打上定義好的標(biāo)簽偶宫。
- 數(shù)據(jù)標(biāo)注的日常工作
- 給各種各樣的數(shù)據(jù)(文本、圖像环鲤、視頻纯趋、音頻)打上標(biāo)簽
- 數(shù)據(jù)標(biāo)注的難點(diǎn)
- 數(shù)據(jù)的整體一致性,以及與業(yè)務(wù)的集合
- 數(shù)據(jù)一致性:所有數(shù)據(jù)的標(biāo)注原則一樣
- 與業(yè)務(wù)的結(jié)合:這是最重要的落地相
- 數(shù)據(jù)標(biāo)注的潛力
- 數(shù)據(jù)對(duì)模型的影響遠(yuǎn)勝于算法
- 數(shù)據(jù)標(biāo)注的職業(yè)發(fā)展
- 如何根據(jù)業(yè)務(wù)設(shè)定標(biāo)注原則
- 如何快速統(tǒng)一地實(shí)現(xiàn)標(biāo)注原則
- 數(shù)據(jù)標(biāo)注職業(yè)的提升路徑:經(jīng)驗(yàn) 業(yè)務(wù) 管理:
- 通過實(shí)踐積累數(shù)據(jù)標(biāo)注的工作經(jīng)驗(yàn)
- 深入理解業(yè)務(wù)需求并將其體現(xiàn)到數(shù)據(jù)的標(biāo)注結(jié)果中
- 管理標(biāo)注團(tuán)隊(duì)達(dá)到高效的標(biāo)注結(jié)果與業(yè)務(wù)變更 align
認(rèn)清形勢(shì)冷离,腳踏實(shí)地
我們要做的就是:認(rèn)清市場(chǎng)當(dāng)前的需求吵冒,了解不同層次人才定位,并結(jié)合自己實(shí)際尋找一條可行之路