這是AI+教育的入門科普文系列第一篇劈猪,敬請不要期待第2/3/4篇途戒。
作為一個(gè)物理老師,一個(gè)PM或者說一個(gè)硬件工程師件豌,我學(xué)過約40小時(shí)的AI知識疮方,總計(jì)10本書+10多個(gè)網(wǎng)站+2個(gè)不同背景的人閑聊,在AI+教育領(lǐng)域尚在入門階段茧彤,歡迎各路大神來揪其中的不靠譜骡显,一起UP。
AI是個(gè)啥曾掂?
是個(gè)啥呀是個(gè)啥惫谤?曾經(jīng)有個(gè)老師說是機(jī)器學(xué)習(xí),攻城獅老公說是概率珠洗,兩種說法都叫我將信將疑溜歪,囫圇整合下,我理解的AI许蓖,或者說人工智能是:
在給力的計(jì)算芯片上蝴猪,算法通過“學(xué)習(xí)”數(shù)據(jù)调衰,完成自我進(jìn)化,形成模型自阱,通過模型讓相關(guān)聯(lián)的東東達(dá)成一定概率的匹配嚎莉,最終達(dá)到模擬、延伸或擴(kuò)展人的智能的目的沛豌。
比如說趋箩,在一次遠(yuǎn)程公開課上,王老師不僅僅需要給臺下的30個(gè)小學(xué)生講課加派,還要通過智慧屏遠(yuǎn)程連接山村里的50個(gè)孩子叫确,他是第一次給村里的孩子上課,卻能夠叫出每個(gè)孩子的名字哼丈,因?yàn)橥ㄟ^學(xué)習(xí)海量有批注的數(shù)據(jù)启妹,算法完成了自我進(jìn)化筛严,構(gòu)建出一個(gè)模型醉旦,通過該模型,它將視頻中的人像和數(shù)據(jù)庫中的數(shù)據(jù)做對比桨啃,實(shí)現(xiàn)了視頻中孩子和姓名的匹配车胡,王老師可以在教室里的大屏上看到孩子和他們的姓名。
提到人工智能照瘾,我們常常繞不開如下關(guān)鍵詞:
其中機(jī)器學(xué)習(xí)是人工智能的一種途徑或子集匈棘,也是人工智能的核心,它從數(shù)據(jù)出發(fā)析命,通過復(fù)雜的算法和運(yùn)算能力主卫,尋找一切數(shù)據(jù)背后的規(guī)律,它強(qiáng)調(diào)的是數(shù)據(jù)的學(xué)習(xí)鹃愤。簡單的機(jī)器學(xué)習(xí)算法的性能簇搅,很大程度上依賴于人為給定數(shù)據(jù)的特征,比如說貓软吐,它的特征有長著毛茸茸的毛瘩将、頂著一對三角形的的耳朵等,特征的選取決定了機(jī)器學(xué)習(xí)的效果凹耙。
而深度學(xué)習(xí)算法可以自己提取數(shù)據(jù)特征姿现。
總之,人工智能是技術(shù)肖抱,是工具备典,也是新的產(chǎn)品設(shè)計(jì)思維邏輯。它有三個(gè)要點(diǎn):算力意述、算法和算據(jù)熊经。
1 算力
也就是說計(jì)算能力泽艘,這種能力用于支持機(jī)器學(xué)習(xí)的訓(xùn)練和推算環(huán)節(jié),其中推算環(huán)節(jié)根據(jù)芯片的位置镐依,又可以分為云端推斷和設(shè)備端推斷匹涮。
根據(jù)定制化程度,人工智能芯片又被分為通用芯片槐壳、半定制化芯片和全定制化芯片三種然低。
①通用型:CPU、GPU务唐、TPU等模塊陣列雳攘,它們可以處理幾乎所有類型任務(wù),價(jià)格相對較高且運(yùn)算速度相對較低枫笛。
②半定制化:FPGA(Field Programmable Gate Array)可編程門陣列吨灭,是一種集成大量門電路和存儲器的芯片,可以通過配置文件來定義門電路及存儲器間的走線刑巧,從而實(shí)現(xiàn)特定功能喧兄。其本質(zhì)是用硬件實(shí)現(xiàn)軟件算法。針對小計(jì)算量啊楚、大批次的計(jì)算吠冤,性能優(yōu)于GPU,另外它有低延遲的特點(diǎn)恭理,適合在推斷環(huán)節(jié)支撐海量的用戶實(shí)時(shí)計(jì)算并發(fā)請求拯辙。
③全定制化:ASIC(Application Specific Integrated Circuits)應(yīng)用專用集成電路,是為專門目的而設(shè)計(jì)的集成電路颜价,設(shè)計(jì)成本高涯保,周期長,但運(yùn)算效率高周伦,功耗小夕春,量產(chǎn)時(shí),單個(gè)芯片的造價(jià)低横辆。
結(jié)合FPGA和ASIC的特點(diǎn)撇他,在實(shí)際應(yīng)用時(shí),我們可以先將芯片原型以FPGA形式做出來狈蚤,在市場中進(jìn)行充分的測試和調(diào)整困肩,然后再進(jìn)行ASIC生產(chǎn)。
2 算法
算法是指解決方案的準(zhǔn)確而完整的描述脆侮,是一系列解決問題的清晰指令锌畸,它代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制。
有一個(gè)與之容易混淆的名詞叫“模型”靖避,它是指通過數(shù)據(jù)對算法進(jìn)行訓(xùn)練后生成的“中間件”潭枣,當(dāng)有新的數(shù)據(jù)輸入時(shí)比默,有相應(yīng)的結(jié)果輸出,它和算法的關(guān)系如下:
①根據(jù)模型訓(xùn)練方式不同盆犁,算法可以分為如下幾類:
監(jiān)督學(xué)習(xí)可以用于識別圖片中的動物是貓還是狗命咐,訓(xùn)練集中的圖片要包括明確的貓或狗的標(biāo)簽;而無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)沒有標(biāo)簽谐岁,比如說在搜索引擎中醋奠,借助無監(jiān)督學(xué)習(xí)將來自不同類型網(wǎng)站的相似的網(wǎng)頁聚類在一起;半監(jiān)督學(xué)習(xí)是是在無監(jiān)督學(xué)習(xí)中混入一些有標(biāo)簽的數(shù)據(jù)伊佃,其本質(zhì)上更接近人類的日常學(xué)習(xí)窜司,可以獲得更好的模型質(zhì)量。
強(qiáng)化學(xué)習(xí)是讓計(jì)算機(jī)通過不斷嘗試航揉,從反饋中學(xué)習(xí)如何在特定的情景下塞祈,選擇可以得到最大回報(bào)的行動。應(yīng)用案例如AlphaGo帅涂,通過讓計(jì)算機(jī)不斷下圍棋的過程中進(jìn)行打分议薪,不斷更新行為準(zhǔn)則,最終掌握下圍棋的技能并得到高分漠秋。
深度學(xué)習(xí)本質(zhì)上是讓計(jì)算機(jī)用層次化的概念體系來理解和學(xué)習(xí)笙蒙,每個(gè)概念通過相對簡單的概念之間的關(guān)系定義抵屿,進(jìn)而實(shí)現(xiàn)通過簡單概念學(xué)習(xí)復(fù)雜概念庆锦。它借鑒了腦神經(jīng)科學(xué)的實(shí)現(xiàn)手段,但與人腦差距很大:人可以從少量樣本中總結(jié)規(guī)律轧葛,而深度學(xué)習(xí)對數(shù)據(jù)的量搂抒、數(shù)據(jù)的特征維度和特征在空間中的分布情況等條件都有較高的要求。
通過深度學(xué)習(xí)可以替代手工獲取特征尿扯。典型的應(yīng)用如電商平臺的商品推薦引擎求晶,社交網(wǎng)絡(luò)平臺向用戶推薦他關(guān)心的新聞、電影衷笋、可能需要的專家建議等芳杏。
遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型參數(shù),遷移到新的模型上幫助新模型訓(xùn)練的學(xué)習(xí)方法辟宗。
②根據(jù)要解決的任務(wù)算法又可以分為:
二分類爵赵,也就是說二選一任務(wù);
多分類泊脐,如視覺識別空幻、手寫識別;
回歸容客,用于預(yù)測具體的數(shù)值秕铛,如預(yù)測明天的溫度约郁、濕度、PM2.5指數(shù)等但两;
聚類鬓梅,如社交軟件根據(jù)用戶的興趣愛好以及在線行為數(shù)據(jù)對人群進(jìn)行劃分;
異常檢測谨湘,對數(shù)據(jù)中存在的不正臣喊梗或非典型的個(gè)體進(jìn)行檢測和標(biāo)記。
選擇算法時(shí)悲关,我們需要在選擇算法之前分析一些因素谎僻,減少算法選擇的范圍,需要考慮:
(1)數(shù)據(jù)量的大小寓辱、數(shù)據(jù)質(zhì)量和數(shù)據(jù)本身的特征艘绍。
(2)具體業(yè)務(wù)場景中要解決的問題本質(zhì)是什么?
(3)可以接受的計(jì)算時(shí)間是什么秫筏?
(4)算法的精度要求诱鞠。
3 算據(jù)
隨著計(jì)算資源、開放訓(xùn)練平臺的使用門檻越來越低这敬,算力將成為如水電煤一般的基礎(chǔ)設(shè)施航夺,而算據(jù)對行業(yè)的縱深度要求極高。未來崔涂,數(shù)據(jù)無疑將成為人工智能領(lǐng)域的競爭壁壘阳掐。
而提到數(shù)據(jù),不得不關(guān)聯(lián)到熱詞“大數(shù)據(jù)”冷蚂,第2篇的主題是“教育大數(shù)據(jù)”:
大數(shù)據(jù)的“4V”是什么缭保?
教育數(shù)據(jù)從哪里來?
又該如何收集處理它們蝙茶?
...
敬請不要期待艺骂。