學號:20021110074? ? ?電院? ? 姓名:梁雪玲
轉載自:https://blog.csdn.net/qq_28168421/article/details/81351321
【嵌牛導讀】:機器學習目前的研究進展如火如荼,那么應該從何處下手才能事半功倍呢?本文帶你開啟入門之旅区宇。
【嵌牛鼻子】:機器學習的定義/發(fā)展/相關算法
【嵌牛提問】:如何自我學習機器學習掘鄙?應該如何入手?
【嵌牛正文】:
本文用淺顯易懂的語言精準概括了機器學習的相關知識揪荣,內容全面井佑,總結到位铅檩,剖析了機器學習的what,who粱玲,when, where, how躬柬,以及why等相關問題。從機器學習的概念抽减,到機器學習的發(fā)展史允青,再到機器學習的各類算法,最后到機器學習的最新應用卵沉,十分詳盡颠锉。適合小白快速了解機器學習法牲。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Machine Learning: A Primer
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? a quick introduction intended for non-technical readers
你是否使用像Siri或Alexa這樣的個人助理客戶端?你是否依賴垃圾郵件過濾器來保持電子郵件收件箱的干凈木柬?你是否訂閱了Netflix皆串,并依賴它驚人的準確推薦來發(fā)現(xiàn)新的電影可看?如果你對這些問題說“是”眉枕,恭喜你恶复!你已經(jīng)很好地利用了機器學習!
雖然這聽起來很復雜速挑,需要大量的技術背景谤牡,但機器學習實際上是一個相當簡單的概念。為了更好地理解它姥宝,讓我們研究一下關于機器學習的what翅萤,who,when, where, how腊满,以及why套么。
什么是機器學習?
One day ladies will take their computers for walks in the park and tell each other, “My little computer said such a funny thing this morning”.
—Alan Turing
機器學習的核心是“使用算法解析數(shù)據(jù)碳蛋,從中學習胚泌,然后對世界上的某件事情做出決定或預測”。這意味著肃弟,與其顯式地編寫程序來執(zhí)行某些任務玷室,不如教計算機如何開發(fā)一個算法來完成任務。有三種主要類型的機器學習:監(jiān)督學習笤受、非監(jiān)督學習和強化學習穷缤,所有這些都有其特定的優(yōu)點和缺點。
監(jiān)督學習涉及一組標記數(shù)據(jù)箩兽。計算機可以使用特定的模式來識別每種標記類型的新樣本津肛。監(jiān)督學習的兩種主要類型是分類和回歸。在分類中汗贫,機器被訓練成將一個組劃分為特定的類身坐。分類的一個簡單例子是電子郵件帳戶上的垃圾郵件過濾器。過濾器分析你以前標記為垃圾郵件的電子郵件芳绩,并將它們與新郵件進行比較掀亥。如果它們匹配一定的百分比撞反,這些新郵件將被標記為垃圾郵件并發(fā)送到適當?shù)奈募A妥色。那些比較不相似的電子郵件被歸類為正常郵件并發(fā)送到你的郵箱。
第二種監(jiān)督學習是回歸遏片。在回歸中嘹害,機器使用先前的(標記的)數(shù)據(jù)來預測未來撮竿。天氣應用是回歸的好例子。使用氣象事件的歷史數(shù)據(jù)(即平均氣溫笔呀、濕度和降水量)幢踏,你的手機天氣應用程序可以查看當前天氣,并在未來的時間內對天氣進行預測许师。
在無監(jiān)督學習中房蝉,數(shù)據(jù)是無標簽的。由于大多數(shù)真實世界的數(shù)據(jù)都沒有標簽微渠,這些算法特別有用搭幻。無監(jiān)督學習分為聚類和降維。聚類用于根據(jù)屬性和行為對象進行分組逞盆。這與分類不同檀蹋,因為這些組不是你提供的。聚類的一個例子是將一個組劃分成不同的子組(例如云芦,基于年齡和婚姻狀況)俯逾,然后應用到有針對性的營銷方案中。降維通過找到共同點來減少數(shù)據(jù)集的變量舅逸。大多數(shù)大數(shù)據(jù)可視化使用降維來識別趨勢和規(guī)則桌肴。
最后,強化學習使用機器的個人歷史和經(jīng)驗來做出決定堡赔。強化學習的經(jīng)典應用是玩游戲识脆。與監(jiān)督和非監(jiān)督學習不同,強化學習不涉及提供“正確的”答案或輸出善已。相反灼捂,它只關注性能。這反映了人類是如何根據(jù)積極和消極的結果學習的换团。很快就學會了不要重復這一動作悉稠。同樣的道理,一臺下棋的電腦可以學會不把它的國王移到對手的棋子可以進入的空間艘包。然后的猛,國際象棋的這一基本教訓就可以被擴展和推斷出來,直到機器能夠打(并最終擊敗)人類頂級玩家為止想虎。
但是卦尊,等等,你可能會說舌厨。我們是在說人工智能嗎岂却?機器學習是人工智能的一個分支。人工智能致力于創(chuàng)造出比人類更能完成復雜任務的機器。這些任務通常涉及判斷躏哩、策略和認知推理署浩,這些技能最初被認為是機器的“禁區(qū)”。雖然這聽起來很簡單扫尺,但這些技能的范圍非常大——語言處理筋栋、圖像識別、規(guī)劃等等正驻。
機器學習使用特定的算法和編程方法來實現(xiàn)人工智能弊攘。沒有機器學習,我們前面提到的國際象棋程序將需要數(shù)百萬行代碼姑曙,包括所有的邊緣情況肴颊,并包含來自對手的所有可能的移動。有了機器學習渣磷,我們可以將代碼量縮小到以前的一小部分婿着。很棒對吧?
有一個缺失的部分:深度學習和神經(jīng)網(wǎng)絡醋界。我們稍后會更詳細地討論它們竟宋,請注意,深度學習是機器學習的一個子集形纺,專注于模仿人類大腦的生物學和過程丘侠。
誰發(fā)展了機器學習?何時何地逐样?
A breakthrough in machine learning would be worth ten Microsofts.—Bill Gates
在我看來蜗字,機器學習最早的發(fā)展是Thomas Bayes 在1783年發(fā)表的同名理論,貝斯定理發(fā)現(xiàn)了給定有關類似事件的歷史數(shù)據(jù)的事件的可能性脂新。這是機器學習的貝葉斯分支的基礎挪捕,它尋求根據(jù)以前的信息尋找最可能發(fā)生的事件。換句話說争便,Bayes定理只是一個從經(jīng)驗中學習的數(shù)學方法级零,是機器學習的基本思想。
幾個世紀后滞乙,1950年奏纪,計算機科學家?Alan Turing發(fā)明了所謂的圖靈測試,計算機必須通過文字對話一個人斩启,讓人以為她在和另一個人說話序调。圖靈認為,只有通過這個測試兔簇,機器才能被認為是“智能的”发绢。1952年荣挨,Arthur Samuel創(chuàng)建了第一個真正的機器學習程序——一個簡單的棋盤游戲,計算機能夠從以前的游戲中學習策略朴摊,并提高未來的性能。接著是Donald Michie 在1963年推出的強化學習的tic-tac-toe程序此虑。在接下來的幾十年里甚纲,機器學習的進步遵循了同樣的模式--一項技術突破導致了更新的、更復雜的計算機朦前,通常是通過與專業(yè)的人類玩家玩戰(zhàn)略游戲來測試的介杆。
它在1997年達到巔峰,當時IBM國際象棋電腦深藍(Deep?Blue)在一場國際象棋比賽中擊敗了世界冠軍加里·卡斯帕羅夫(Garry Kasparov)韭寸。最近春哨,谷歌開發(fā)了專注于古代中國棋類游戲圍棋(Go)的AlphaGo,該游戲被普遍認為是世界上最難的游戲恩伺。盡管圍棋被認為過于復雜赴背,以至于一臺電腦無法掌握,但在2016年晶渠,AlphaGo終于獲得了勝利凰荚,在一場五局比賽中擊敗了Lee Sedol。
機器學習最大的突破是2006年的深度學習褒脯。深度學習是一類機器學習便瑟,目的是模仿人腦的思維過程,經(jīng)常用于圖像和語音識別番川。深度學習的出現(xiàn)導致了我們今天使用的(可能是理所當然的)許多技術到涂。你有沒有把一張照片上傳到你的Facebook賬戶,只是為了暗示給照片中的人貼上標簽颁督?Facebook正在使用神經(jīng)網(wǎng)絡來識別照片中的面孔践啄。或者Siri呢沉御?當你問你的iPhone關于今天的棒球成績時往核,你的話語會用一種復雜的語音解析算法進行分析。如果沒有深度學習嚷节,這一切都是不可能的聂儒。
要獲得更全面的機器學習時間表,請務必查看這篇由Google云團隊撰寫的偉大文章硫痰!
機器學習是如何工作的衩婚?
注意所有對數(shù)學恐懼的讀者:我很遺憾地告訴你,要完全理解大多數(shù)機器學習算法效斑,就需要對一些關鍵的數(shù)學概念有一個基本的理解非春。但不要害怕!所需的概念很簡單,并且借鑒了你可能已經(jīng)上過的課程奇昙。機器學習使用線性代數(shù)护侮、微積分、概率和統(tǒng)計储耐。
Top 3線性代數(shù)概念:
1.矩陣運算羊初;
2.特征值/特征向量;
3.向量空間和范數(shù)
Top 3微積分概念:
1.偏導數(shù)什湘;
2.向量-值函數(shù)长赞;
3.方向梯度
Top 3統(tǒng)計概念:
1.Bayes定理;
2.組合學闽撤;
3.抽樣方法
對于特定的數(shù)學資源得哆,我強烈推薦這篇來自MetaDesignIdeas的文章。
一旦你對數(shù)學有了基本的理解哟旗,就該開始思考整個機器學習過程了贩据。有五個主要步驟:
上面的圖表以比較清楚的方式解釋了步驟,所以在我們關注最關鍵的部分:為數(shù)據(jù)和情況選擇正確的算法之前闸餐,花一分鐘的時間來研究它乐设。
We don’t have better algorithms, we just have more data.—Peter Norvig
讓我們回顧一下算法的一些常見分組:
回歸算法
這可能是最流行的機器學習算法,線性回歸算法是基于連續(xù)變量預測特定結果的監(jiān)督學習算法绎巨。另一方面近尚,Logistic回歸專門用來預測離散值。這兩種(以及所有其他回歸算法)都以它們的速度而聞名场勤,它們一直是最快速的機器學習算法之一戈锻。
基于實例的算法
基于實例的分析使用提供數(shù)據(jù)的特定實例來預測結果。最著名的基于實例的算法是k-最近鄰算法和媳,也稱為KNN格遭。KNN用于分類,比較數(shù)據(jù)點的距離留瞳,并將每個點分配給它最接近的組拒迅。
決策樹算法
決策樹算法將一組“弱”學習器集合在一起,形成一種強算法她倘,這些學習器組織在樹狀結構中璧微,相互分支。一種流行的決策樹算法是隨機森林算法硬梁。在該算法中前硫,弱學習器是隨機選擇的,這往往可以獲得一個強預測器荧止。在下面的例子中屹电,我們可以發(fā)現(xiàn)許多共同的特征(就像眼睛是藍的或者不是藍色的)阶剑,它們都不足以單獨識別動物。然而危号,當我們把所有這些觀察結合在一起時牧愁,我們就能形成一個更完整的畫面,并做出更準確的預測外莲。
貝葉斯算法
絲毫不奇怪猪半,這些算法都是基于Bayes理論的,最流行的算法是樸素Bayes苍狰,它經(jīng)常用于文本分析。例如烘绽,大多數(shù)垃圾郵件過濾器使用貝葉斯算法淋昭,它們使用用戶輸入的類標記數(shù)據(jù)來比較新數(shù)據(jù)并對其進行適當分類。
聚類算法
聚類算法的重點是發(fā)現(xiàn)元素之間的共性并對它們進行相應的分組安接,常用的聚類算法是k-means聚類算法翔忽。在k-means中,分析人員選擇簇數(shù)(以變量k表示)盏檐,并根據(jù)物理距離將元素分組為適當?shù)木垲悺?/p>
深度學習和神經(jīng)網(wǎng)絡算法
人工神經(jīng)網(wǎng)絡算法基于生物神經(jīng)網(wǎng)絡的結構歇式,深度學習采用神經(jīng)網(wǎng)絡模型并對其進行更新。它們是大胡野、且極其復雜的神經(jīng)網(wǎng)絡材失,使用少量的標記數(shù)據(jù)和更多的未標記數(shù)據(jù)。神經(jīng)網(wǎng)絡和深度學習有許多輸入硫豆,它們經(jīng)過幾個隱藏層后才產生一個或多個輸出龙巨。這些連接形成一個特定的循環(huán),模仿人腦處理信息和建立邏輯連接的方式熊响。此外旨别,隨著算法的運行,隱藏層往往變得更小汗茄、更細微秸弛。
其他算法
下面的圖表是我發(fā)現(xiàn)的最好的圖表,它展示了主要的機器學習算法洪碳、它們的分類以及它們之間的關系递览。
The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver
一旦你選擇并運行了你的算法,還有一個非常重要的步驟:可視化和交流結果瞳腌。雖然與算法編程的細節(jié)相比非迹,這看起來既愚蠢又膚淺,但是良好的可視化是優(yōu)秀數(shù)據(jù)科學家和偉大科學家的關鍵隔膜纯趋。如果沒有人能夠理解憎兽,那么驚人的洞察力又有什么用呢冷离?
為什么機器學習很重要?
Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years.— Andrew Ng
現(xiàn)在應該清楚的是纯命,機器學習有巨大的潛力來改變和改善世界西剥。通過像谷歌大腦和斯坦福機器學習小組這樣的研究團隊,我們正朝著真正的人工智能邁進一大步亿汞。但是瞭空,確切地說,什么是機器學習能產生影響的下一個主要領域疗我?
物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(Internet of?Things)咆畏,或者說IOT,是指你家里和辦公室里聯(lián)網(wǎng)的物理設備吴裤。流行的物聯(lián)網(wǎng)設備是智能燈泡旧找,其銷售額在過去幾年里猛增。隨著機器學習的進步麦牺,物聯(lián)網(wǎng)設備比以往任何時候都更聰明钮蛛、更復雜。機器學習有兩個主要的與物聯(lián)網(wǎng)相關的應用:使你的設備變得更好和收集你的數(shù)據(jù)剖膳。讓設備變得更好是非常簡單的:使用機器學習來個性化您的環(huán)境魏颓,比如,用面部識別軟件來感知哪個是房間吱晒,并相應地調整溫度和AC甸饱。收集數(shù)據(jù)更加簡單,通過在你的家中保持網(wǎng)絡連接的設備(如亞馬遜回聲)的通電和監(jiān)聽仑濒,像Amazon這樣的公司收集關鍵的人口統(tǒng)計信息柜候,將其傳遞給廣告商,比如電視顯示你正在觀看的節(jié)目躏精、你什么時候醒來或睡覺渣刷、有多少人住在你家。
聊天機器人
在過去的幾年里矗烛,我們看到了聊天機器人的激增辅柴,成熟的語言處理算法每天都在改進它們。聊天機器人被公司用在他們自己的移動應用程序和第三方應用上瞭吃,比如Slack碌嘀,以提供比傳統(tǒng)的(人類)代表更快、更高效的虛擬客戶服務歪架。
自動駕駛
我個人最喜歡的下一個大型機器學習項目是最遠離廣泛生產的項目之一股冗。然而,目前有幾家大型公司正在開發(fā)無人駕駛汽車和蚪,如雪佛蘭止状、Uber和Tsla烹棉。這些汽車使用了通過機器學習實現(xiàn)導航、維護和安全程序的技術怯疤。一個例子是交通標志傳感器浆洗,它使用監(jiān)督學習算法來識別和解析交通標志,并將它們與一組標有標記的標準標志進行比較集峦。這樣伏社,汽車就能看到停車標志,并認識到它實際上意味著停車塔淤,而不是轉彎摘昌,單向或人行橫道。
這就是我們進入機器學習世界的非常短暫的旅程高蜂。感謝觀看聪黎。