機(jī)器學(xué)習(xí)(深度學(xué)習(xí))跟編程范式以及處理的數(shù)據(jù)等方面根傳統(tǒng)的編程有較大不同北苟,需要學(xué)習(xí)或準(zhǔn)備轉(zhuǎn)型做這個(gè)領(lǐng)域的需要引起足夠的關(guān)注以躯。
1蟆盐、編程范式
在經(jīng)典的程序設(shè)計(jì)(即符號(hào)主義人工智能的范式)中移必,人們輸入的是規(guī)則(即程序)和需要根據(jù)這些規(guī)則進(jìn)行處理的數(shù)據(jù)室谚,系統(tǒng)輸出的是答案 (見(jiàn)下圖)。
利用機(jī)器學(xué)習(xí)避凝,人們輸入的是數(shù)據(jù)和從這些數(shù)據(jù)中預(yù)期得到的答案舞萄,系統(tǒng)輸出的是規(guī)則或者叫模型眨补。這些規(guī)則隨后可應(yīng)用于新的數(shù)據(jù)管削,并使計(jì)算機(jī)自主生成答案。
機(jī)器學(xué)習(xí)系統(tǒng)是訓(xùn)練出來(lái)的撑螺,而不是明確地用程序編寫出來(lái)的含思。將與某個(gè)任務(wù)相關(guān)的許多示例輸入機(jī)器學(xué)習(xí)系統(tǒng),它會(huì)在這些示例中找到統(tǒng)計(jì)結(jié)構(gòu),從而最終找到規(guī)則將任務(wù)自動(dòng)化含潘。這一點(diǎn)與人類思考類似饲做,看下圖人類解決問(wèn)題的思路:
可以看出,機(jī)器學(xué)習(xí)處理的是數(shù)據(jù)遏弱,通過(guò)學(xué)習(xí)輸入的數(shù)據(jù)盆均,從而建立模型,以便預(yù)測(cè)新的數(shù)據(jù)都輸出漱逸。
2泪姨、數(shù)據(jù)
在處理的數(shù)據(jù)方面,傳統(tǒng)的編程處理的數(shù)據(jù)往往都是簡(jiǎn)單的數(shù)據(jù)或存在數(shù)據(jù)庫(kù)里的關(guān)系型數(shù)據(jù)饰抒,經(jīng)常的操作是對(duì)數(shù)據(jù)的增刪改查(CRUD)操作肮砾,而機(jī)器學(xué)習(xí)(深度學(xué)習(xí))處理的數(shù)據(jù)一般都是很大的數(shù)據(jù),經(jīng)常把它叫做數(shù)據(jù)集袋坑,為了高效處理這些數(shù)據(jù)仗处,我們需要用到向量、矩陣或多維數(shù)組來(lái)存儲(chǔ)和表達(dá)枣宫。這也是準(zhǔn)備學(xué)習(xí)或轉(zhuǎn)型到向量的同仁需要注意的婆誓,所以,你需要了解也颤、熟悉并習(xí)慣使用多維數(shù)組來(lái)進(jìn)行數(shù)據(jù)存儲(chǔ)旷档、變換。這里列舉一下歇拆,你可能會(huì)遇到的幾類數(shù)據(jù)集:
向量數(shù)據(jù):2D張量鞋屈,形狀為 (samples, features)。這是最常見(jiàn)的數(shù)據(jù)故觅,對(duì)于這種數(shù)據(jù)集厂庇,每個(gè)數(shù)據(jù)點(diǎn)都被編碼為一個(gè)向量,因此一個(gè)數(shù)據(jù)批量就被編碼為2維張量(即向量組成的數(shù)組输吏,即矩陣)权旷,其中第一個(gè)軸是樣本軸,第二個(gè)軸是特征軸贯溅。例如在手寫數(shù)字識(shí)別的例子中拄氯,一副28乘28像素的圖片,展成一個(gè)向量就是一個(gè)784個(gè)像素的向量它浅,如果有10000副這樣的圖片译柏,就可以使用一個(gè)形狀為(10000,784)的二維張量來(lái)表達(dá)姐霍。
-
時(shí)間序列數(shù)據(jù)或序列數(shù)據(jù):3D張量鄙麦,形狀為(samples, timesteps, features)典唇。當(dāng)時(shí)間(或序列順序)對(duì)于數(shù)據(jù)很重要時(shí),應(yīng)該將數(shù)據(jù)存儲(chǔ)在帶有時(shí)間軸的3D張量中胯府。每個(gè)樣本可以被編碼為一個(gè)向量序列(即2D張量)介衔,因此一個(gè)數(shù)據(jù)批量就被編碼為一個(gè)3D張量。例如骂因,股票價(jià)格數(shù)據(jù)集炎咖,每一分鐘,我們將股票的當(dāng)前價(jià)格寒波、前一分鐘的最高價(jià)格和前一分鐘的最低價(jià)格保存下來(lái)塘装,因此每分鐘被編碼為一個(gè)3D向量,整個(gè)交易日被編碼為一個(gè)形狀為(390, 3) 的2D張量(一個(gè)交易日有390 分鐘)影所,而250天的數(shù)據(jù)則可以保存在一個(gè)形狀為(250, 390,3) 的3D張量中蹦肴。這里每個(gè)樣本是一天的股票數(shù)據(jù)。
-
圖像:4D張量猴娩,形狀為(samples, height, width, channels)或(samples, channels,height, width)阴幌。圖像通常具有三個(gè)維度:高度、寬度和顏色深度卷中。雖然灰度圖像(比如MNIST 數(shù)字圖像)只有一個(gè)顏色通道矛双,因此可以保存在2D 張量中,但按照慣例蟆豫,圖像張量始終都是3D 張量议忽,灰度圖像的彩色通道只有一維。因此十减,如果圖像大小為256×256栈幸,那么128 張灰度圖像組成的批量可以保存在一個(gè)形狀為(128, 256, 256, 1) 的張量中,而128 張彩色圖像組成的批量則可以保存在一個(gè)形狀為(128, 256, 256, 3) 的張量中帮辟。
視頻:5D張量速址,形狀為(samples, frames, height, width, channels)或(samples,frames, channels, height, width)。視頻數(shù)據(jù)是現(xiàn)實(shí)生活中需要用到5D張量的少數(shù)數(shù)據(jù)類型之一由驹。視頻可以看作一系列幀芍锚,
每一幀都是一張彩色圖像。由于每一幀都可以保存在一個(gè)形狀為(height, width, color_depth) 的3D張量中蔓榄,因此一系列幀可以保存在一個(gè)形狀為(frames, height, width,color_depth) 的4D張量中并炮,而不同視頻組成的批量則可以保存在一個(gè)5D 張量中,其形狀為(samples, frames, height, width, color_depth)甥郑。
讀到這里可能有的同學(xué)會(huì)覺(jué)得有點(diǎn)暈了逃魄,就像一個(gè)習(xí)慣了舞槍弄棒的人,現(xiàn)在教你改用機(jī)槍和大炮壹若,從使用冷兵器到使用熱兵器嗅钻,不習(xí)慣是必然的,但是學(xué)習(xí)曲線就是這樣的陡店展!而你必須習(xí)慣养篓,否則學(xué)習(xí)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))會(huì)比較吃力。
總之赂蕴,一句話柳弄,機(jī)器學(xué)習(xí)(深度學(xué)習(xí))大多數(shù)情況下處理的是多維數(shù)據(jù),不管具體是幾維概说。
3碧注、工程性強(qiáng)
深度學(xué)習(xí)在理論上無(wú)法證明它為何有效,但是在實(shí)際問(wèn)題上它的確有效糖赔,沒(méi)有形成系統(tǒng)的理論萍丐。比如,各個(gè)深度學(xué)習(xí)模型為什么好用放典?原理本質(zhì)是什么逝变?各個(gè)模型都適用于什么場(chǎng)合?針對(duì)特定數(shù)據(jù)奋构,特定問(wèn)題壳影,如何組合搭建模型,各個(gè)參數(shù)怎么選弥臼?如何根據(jù)特定模型宴咧,特定數(shù)據(jù)來(lái)訓(xùn)練模型?所以径缅,機(jī)器學(xué)習(xí)(深度學(xué)習(xí))領(lǐng)域工程性強(qiáng)掺栅,或者說(shuō)實(shí)踐性強(qiáng)。由于這一領(lǐng)域是靠實(shí)驗(yàn)結(jié)果而不是理論指導(dǎo)的纳猪,所以只有當(dāng)合適的數(shù)據(jù)和硬件可用于嘗試新想法時(shí)(或者將舊想法的規(guī)模擴(kuò)大柿冲,事實(shí)往往也是如此),才可能出現(xiàn)算法上的改進(jìn)兆旬。機(jī)器學(xué)習(xí)不是數(shù)學(xué)或物理學(xué)假抄,靠一支筆和一張紙就能實(shí)現(xiàn)重大進(jìn)展,這或許是人工智能一路曲折發(fā)展的一個(gè)因素丽猬。它是一門工程科學(xué)宿饱。
4、再談維度
維度這個(gè)詞語(yǔ)我們經(jīng)常聽(tīng)到脚祟,在物理學(xué)上谬以,認(rèn)為我們生活的空間是個(gè)3維空間,加上時(shí)間由桌,大家認(rèn)為就是4維为黎;但是在數(shù)學(xué)領(lǐng)域邮丰,可以由3維上升到N維空間,數(shù)學(xué)上的理解有所不同铭乾,有興趣的可以查看2008年歐洲數(shù)學(xué)界的一個(gè)關(guān)于維度的專業(yè)講解剪廉;在意識(shí)領(lǐng)域,也可以有多維的概念炕檩,在梁冬采訪北大教授劉豐的視頻中斗蒋,劉豐講到了生命的意義在于提升意識(shí)的維度,并說(shuō)上升到4維就是宗教笛质,而且說(shuō)人類的智慧往往來(lái)自直覺(jué)泉沾,而直覺(jué)往往來(lái)自高維度的信息,有興趣的可以參考這里妇押。人工智能處理的數(shù)據(jù)跷究,從數(shù)學(xué)上講就是高緯度的數(shù)據(jù),是否人類在人工智能的努力方向正在解開(kāi)高緯度的秘密敲霍?高維度是否打開(kāi)了通往智慧揭朝、通往上帝之門?這里只是做點(diǎn)延展色冀。
以上就是學(xué)習(xí)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))需要注意的幾點(diǎn)潭袱,供大家參考和討論。