機(jī)器學(xué)習(xí)最常面臨的兩類任務(wù)即是分類與回歸砂竖。這兩者有什么區(qū)別呢?
最常見的一種解釋為:
定量輸出稱為回歸娜遵,或者說(shuō)是連續(xù)變量預(yù)測(cè);
定性輸出稱為分類壤短,或者說(shuō)是離散變量預(yù)測(cè)设拟。
舉個(gè)例子:
預(yù)測(cè)明天的氣溫是多少度,這是一個(gè)回歸任務(wù)久脯;
預(yù)測(cè)明天是陰纳胧、晴還是雨,就是一個(gè)分類任務(wù)帘撰。
但這種解釋根本上是一種錯(cuò)誤的解釋跑慕,因?yàn)榛貧w與分類的本質(zhì)區(qū)別并不在于連續(xù)還是離散,只不過(guò)通炒菡遥回歸問(wèn)題以連續(xù)的形式表現(xiàn)核行、而分類問(wèn)題以離散的形式表現(xiàn)罷了牢硅。
“回歸與分類的根本區(qū)別在于輸出空間是否為一個(gè)度量空間≈パ”
我們不難看到唤衫,回歸問(wèn)題與分類問(wèn)題本質(zhì)上都是要建立映射關(guān)系:
而兩者的區(qū)別則在于:
對(duì)于回歸問(wèn)題,其輸出空間B是一個(gè)度量空間绵脯,即所謂“定量”。也就是說(shuō)休里,回歸問(wèn)題的輸出空間定義了一個(gè)度量
去衡量輸出值與真實(shí)值之間的“誤差大小”蛆挫。例如:預(yù)測(cè)一瓶700毫升的可樂(lè)的價(jià)格(真實(shí)價(jià)格為5元)為6元時(shí),誤差為1妙黍;預(yù)測(cè)其為7元時(shí)悴侵,誤差為2。這兩個(gè)預(yù)測(cè)結(jié)果是不一樣的拭嫁,是有度量定義來(lái)衡量這種“不一樣”的可免。
對(duì)于分類問(wèn)題,其輸出空間B不是度量空間做粤,即所謂“定性”浇借。也就是說(shuō),在分類問(wèn)題中怕品,只有分類“正確”與“錯(cuò)誤”之分妇垢,至于錯(cuò)誤時(shí)是將Class 5分到Class 6,還是Class 7,并沒(méi)有區(qū)別肉康,都是在error counter上+1闯估。
而非很多回答所提到的“連續(xù)即回歸,離散即分類”吼和。
事實(shí)上涨薪,在實(shí)際操作中,我們確實(shí)常常將回歸問(wèn)題和分類問(wèn)題互相轉(zhuǎn)化(分類問(wèn)題回歸化:邏輯回歸炫乓;回歸問(wèn)題分類化:年齡預(yù)測(cè)問(wèn)題——>年齡段分類問(wèn)題)刚夺,但這都是為了處理實(shí)際問(wèn)題時(shí)的方便之舉,背后損失的是數(shù)學(xué)上的嚴(yán)謹(jǐn)性末捣。