什么是機器學(xué)習(xí)?我們可以閱讀機器學(xué)習(xí)的權(quán)威定義胜蛉,但實際上挠进,機器學(xué)習(xí)是由正在解決的問題定義的。因此誊册,了解機器學(xué)習(xí)的最佳方法是查看一些示例問題领突。
在這篇文章中,我們將首先看一些現(xiàn)實世界中機器學(xué)習(xí)問題的眾所周知和理解的例子案怯。然后君旦,我們將查看標準機器學(xué)習(xí)問題的分類法(命名系統(tǒng)),并學(xué)習(xí)如何將問題識別為這些標準案例之一嘲碱。這很有價值金砍,因為了解我們面臨的問題類型可以讓我們考慮我們需要的數(shù)據(jù)以及要嘗試的算法類型。
10機器學(xué)習(xí)問題的例子
機器學(xué)習(xí)問題比比皆是麦锯。它們構(gòu)成了您每天在網(wǎng)絡(luò)或桌面上使用的軟件的核心或難點部分恕稠。想想推特上的“你想跟隨”的建議以及Apple的Siri中的言語理解。
下面是10個機器學(xué)習(xí)的例子扶欣,它們真正奠定了機器學(xué)習(xí)的全部意義鹅巍。
- 垃圾郵件檢測:給定收件箱中的電子郵件,識別那些垃圾郵件和非垃圾郵件料祠。擁有此問題的模型將允許程序?qū)⒎抢]件留在收件箱中并將垃圾郵件移動到垃圾郵件文件夾骆捧。我們都應(yīng)該熟悉這個例子。
- 信用卡欺詐檢測:在一個月內(nèi)為客戶提供信用卡交易术陶,識別客戶和非客戶進行的交易凑懂。具有此決定模型的程序可以退還那些欺詐性交易煤痕。
- 數(shù)字識別:給定一個手寫在信封上的郵政編碼梧宫,識別每個手寫字符的數(shù)字。該問題的模型將允許計算機程序讀取和理解手寫郵政編碼并按地理區(qū)域?qū)π欧膺M行排序摆碉。
- 語音理解:給定用戶的話語塘匣,識別用戶提出的具體請求。該問題的模型將允許程序理解并嘗試滿足該請求巷帝。帶Siri的iPhone具有這種功能忌卤。
- 人臉檢測:鑒于數(shù)百張數(shù)碼照片的數(shù)碼相冊,請識別包含特定人物的照片楞泼。該決策過程的模型將允許程序按人員組織照片驰徊。一些相機和像iPhoto這樣的軟件具有這種功能笤闯。
照片中的人臉檢測示例。
先生的照片 'sto根據(jù)署名 - ShareAlike 2.0通用知識共享許可獲得許可棍厂。
- 產(chǎn)品推薦:根據(jù)客戶的購買歷史記錄和大量產(chǎn)品庫存颗味,確定該客戶將感興趣并可能購買的產(chǎn)品。該決策過程的模型將允許程序向客戶提出建議并激勵產(chǎn)品購買牺弹。亞馬遜有這種能力浦马。還要考慮Facebook,GooglePlus和LinkedIn张漂,建議用戶在注冊后與您聯(lián)系晶默。
- 醫(yī)療診斷:鑒于患者出現(xiàn)的癥狀和匿名患者記錄數(shù)據(jù)庫,預(yù)測患者是否可能患病航攒。程序可以使用該決策問題的模型來為醫(yī)療專業(yè)人員提供決策支持磺陡。
- 股票交易:鑒于股票的當前和過去價格變動,確定是否應(yīng)該購買漠畜,持有或出售股票仅政。這個決策問題的模型可以為金融分析師提供決策支持。
- 客戶細分:考慮到用戶在試用期間的行為模式以及所有用戶的過去行為盆驹,請確定將轉(zhuǎn)換為產(chǎn)品的付費版本和不會轉(zhuǎn)換為付費版本的用戶圆丹。該決策問題的模型將允許程序觸發(fā)客戶干預(yù)以說服客戶提前或更好地參與試驗。
- 形狀檢測:給定用戶手在觸摸屏上繪制形狀和已知形狀的數(shù)據(jù)庫躯喇,確定用戶試圖繪制的形狀辫封。該決定的模型將允許程序顯示用戶繪制的用于制作清晰圖表的那種形狀的柏拉圖版本。該Instaviz iPhone應(yīng)用程序做到這一點廉丽。
這10個例子很好地理解了機器學(xué)習(xí)問題倦微。有一個歷史性的例子,有一個需要建模的決定正压,一個企業(yè)或領(lǐng)域的好處欣福,使自己的決策建模和有效。
其中一些問題是人工智能中最難的問題焦履,例如自然語言處理和機器視覺(人類很容易做的事情)拓劝。其他人仍然很難,但卻是機器學(xué)習(xí)的經(jīng)典例子嘉裤,如垃圾郵件檢測和信用卡欺詐檢測郑临。
想想你上周在線和離線軟件的一些互動。我相信你可以很容易地猜到你直接或間接使用的另外十或二十個機器學(xué)習(xí)的例子屑宠。
機器學(xué)習(xí)問題的類型
通過閱讀上面的示例機器學(xué)習(xí)問題列表厢洞,我相信你可以開始看到相似之處。這是一項有價值的技能,因為善于提取問題的本質(zhì)將使您能夠有效地思考您需要哪些數(shù)據(jù)以及您應(yīng)該嘗試哪種類型的算法躺翻。
機器學(xué)習(xí)中存在常見的問題類別丧叽。下面的問題類是我們在進行機器學(xué)習(xí)時所提到的大多數(shù)問題的原型。
- 分類:數(shù)據(jù)被標記意味著它被分配了一個類公你,例如垃圾郵件/非垃圾郵件或欺詐/非欺詐蠢正。建模的決定是為新的未標記數(shù)據(jù)分配標簽。這可以被認為是歧視問題省店,模擬群體之間的差異或相似性嚣崭。
- 回歸:數(shù)據(jù)標有實際值(想想浮點數(shù)),而不是標簽懦傍。易于理解的示例是時間序列數(shù)據(jù)雹舀,如股票價格隨時間的變化,建模的決策是預(yù)測新的不可預(yù)測數(shù)據(jù)的值粗俱。
- 聚類:數(shù)據(jù)未標記说榆,但可以根據(jù)數(shù)據(jù)中的相似性和其他自然結(jié)構(gòu)度量進行劃分。上面列表中的一個示例是通過沒有名稱的面部組織圖片寸认,其中人類用戶必須為組指定名稱签财,例如Mac上的iPhoto。
- 規(guī)則提取:數(shù)據(jù)被用作提取命題規(guī)則的基礎(chǔ)(先行/結(jié)果偏塞,即if-then)唱蒸。這樣的規(guī)則可以但通常不是針對性的,這意味著方法發(fā)現(xiàn)數(shù)據(jù)中的屬性之間的統(tǒng)計上可支持的關(guān)系灸叼,不一定涉及正被預(yù)測的事物神汹。一個例子是發(fā)現(xiàn)購買啤酒和尿布之間的關(guān)系 (這是數(shù)據(jù)挖掘民間法,無論是否真實古今,它是對欲望和機會的說明)屁魏。
當您認為問題是機器學(xué)習(xí)問題(需要根據(jù)數(shù)據(jù)建模的決策問題)時,請考慮您可以輕松地將其置于何種類型的問題或客戶或要求要求和工作的結(jié)果類型向后捉腥。
資源
幾乎沒有資源提供真實世界機器學(xué)習(xí)問題的列表氓拼。他們可能在那里,但我找不到他們抵碟。我仍然為你找到了一些很酷的資源:
- 年度“Humies”獎項:這些是通過算法獲得的獎項列表桃漾,這些算法與人類提出的結(jié)果相比具有競爭力。這令人興奮立磁,因為這些算法只能從數(shù)據(jù)或成本函數(shù)中運作呈队,并且能夠具有創(chuàng)造性和創(chuàng)造性剥槐,足以侵犯專利唱歧。驚人!
- 人工智能效應(yīng):一旦人工智能程序獲得足夠好的結(jié)果,它就不再被視為人工智能颅崩,而只是技術(shù)并且在日常事物中被使用几于。同樣適用于機器學(xué)習(xí)。
- AI-Complete:指的是人工智能中非常困難的問題沿后,如果解決這個問題將是強AI(AI在科幻小說中設(shè)想沿彭,真正的AI)的一個例子。計算機視覺和自然語言處理的問題都是AI完全問題的例子尖滚,也可能被認為是特定領(lǐng)域的機器學(xué)習(xí)問題類別喉刘。
- 2013年機器學(xué)習(xí)的十大問題是什么?這個Quora問題有一些很好的答案漆弄,并列出了一些廣泛的實際機器學(xué)習(xí)問題睦裳。
我們已經(jīng)回顧了現(xiàn)實世界機器學(xué)習(xí)問題的一些常見例子以及機器學(xué)習(xí)問題類別的分類。我們現(xiàn)在有信心評論問題是否是機器學(xué)習(xí)問題撼唾,并從問題描述中挑選元素并確定它是分類廉邑,回歸,聚類還是規(guī)則提取類型的問題倒谷。