科學(xué)可以讓童話變成現(xiàn)實(shí)玻褪, 還記得《白雪公主》里面的魔鏡么纵菌, 利用人類科技真是可以讓平民老百姓也能有一個(gè)了吻氧。 因?yàn)槿祟愖層?jì)算機(jī)也可以自己用機(jī)器學(xué)習(xí)做判斷了瓤球。
利用機(jī)器學(xué)習(xí)的常用步驟就是先讓機(jī)器學(xué)習(xí)融欧,再讓機(jī)器干活。
對(duì)人臉進(jìn)行打分這個(gè)事兒怎么學(xué)習(xí)卦羡, 肯定得給計(jì)算機(jī)一堆照片噪馏,告訴它每一張照片的得分是多少, 計(jì)算機(jī)學(xué)習(xí)完了绿饵, 再給它一個(gè)它沒(méi)見(jiàn)過(guò)的照片欠肾, 讓它打個(gè)分,看看學(xué)習(xí)的好不好拟赊。
學(xué)習(xí)的話可以利用一些機(jī)器學(xué)習(xí)的框架刺桃,比如 Caffe, Tensorflow, 不過(guò)這些框架安裝比較費(fèi)勁, 使用起來(lái)比較麻煩吸祟,運(yùn)行時(shí)間也比較長(zhǎng)瑟慈。 我們?cè)囋囉米罨A(chǔ)的機(jī)器學(xué)習(xí)庫(kù)來(lái)解決這個(gè)事吧桃移。 本文涉及到的代碼和文檔都放在了 Github 的這個(gè)鏈接里了:
首先,我們得把人臉照片中的關(guān)鍵信息提出來(lái)葛碧,這個(gè)信息越少越好借杰, 這樣以后計(jì)算機(jī)進(jìn)行學(xué)習(xí)的時(shí)候比較省事。 對(duì)人臉來(lái)講进泼, 決定顏值高低的是一些關(guān)鍵點(diǎn)的位置蔗衡。 這些關(guān)鍵點(diǎn)的位置在照片中就是用橫縱坐標(biāo)來(lái)表示。 所以我們先從網(wǎng)上找到一些妹子的照片乳绕,這些照片放在了 source/web_image 文件夾里粘都,對(duì)于每張照片的評(píng)分, 放在了 data/ratings.txt 文件里刷袍。 以照片文件夾路徑為參數(shù)翩隧, 我們運(yùn)行 1_facial_landmarks.py 程序, 它可以把每張照片中人臉的關(guān)鍵點(diǎn)提取出來(lái)呻纹,存在一個(gè)文本文件里堆生。 這個(gè)程序里面用到了 dlib 庫(kù)的人臉識(shí)別功能, 把照片中的人臉找出來(lái)雷酪,再去找人臉中的關(guān)鍵點(diǎn)淑仆。這塊有一個(gè)特別需要注意的地方, 因?yàn)槲覀兪菑囊粋€(gè)文件夾里的 500 張照片逐個(gè)照片去找關(guān)鍵點(diǎn)的哥力,在程序中用 listdir 函數(shù)列出這 500 張照片時(shí)蔗怠, 千萬(wàn)要記得排序!因?yàn)?listdir 函數(shù)列出來(lái)的文件名順序吩跋,并不是按照照片文件名中的序號(hào)順序寞射, 所以調(diào)用了一下 sort 函數(shù):
list_im.sort(reverse = True, key=lambda x:int(x[8:-4]))
第二步, 我們可以從人臉的關(guān)鍵點(diǎn)里計(jì)算一下特征锌钮。 這個(gè)特征就是各個(gè)關(guān)鍵點(diǎn)之間的距離比例桥温。 當(dāng)然我們可以把任意兩個(gè)人臉關(guān)鍵點(diǎn)之間的距離算一下, 再算一下這個(gè)距離與其他所有距離之間的比例梁丘。 但是人臉關(guān)鍵點(diǎn)至少有幾十個(gè)侵浸, 我們?cè)趺礈p少一下程序計(jì)算量。 這樣我們等待的時(shí)間也可以少一點(diǎn)氛谜。 我們可以站在對(duì)人臉美學(xué)研究比較多的專家的肩膀上掏觉,來(lái)實(shí)現(xiàn)這個(gè)目的。 韓國(guó)科學(xué)家在這方面比較先進(jìn)值漫,因?yàn)樗鼈兊恼菁夹g(shù)應(yīng)用的太普遍了澳腹, 看看這篇文章 “A Novel Framework for Assessing Facial Attractiveness Based on Facial Proportions”, 它總結(jié)了幾個(gè)決定人臉美麗程度的幾個(gè)重要比例,我們可以拿過(guò)來(lái)用遵湖。 這幾個(gè)關(guān)鍵點(diǎn)距離比例,我們把它算好后放在 data/features_ALL.txt 文本文件中晚吞。
第三步延旧, 有了每張照片的特征和評(píng)分, 我們就可以把他們?nèi)咏o計(jì)算機(jī)學(xué)習(xí)了槽地。 我們還有個(gè)可以減少學(xué)習(xí)時(shí)間的手段可以利用迁沫,就是主成分分析 Principal Component Analysis
(PCA) 大法。 我們算出來(lái)的特征還是有點(diǎn)多捌蚊,我們用 PCA 給它減少點(diǎn)集畅, scikit-learn 中有 PCA 的庫(kù)可以直接利用。 特征想要減少到多少呢缅糟, 可以利用已有的數(shù)據(jù)集實(shí)驗(yàn)確定一下挺智, 或者隨便給它一個(gè)差不多不太大的值先用用看。 之后我們就可以利用機(jī)器學(xué)習(xí)的模型進(jìn)行訓(xùn)練了窗宦。 常用的模型有線性回歸赦颇、邏輯回歸、支持向量機(jī)赴涵、隨機(jī)森林和高斯過(guò)程回歸媒怯。不同的模型表現(xiàn)效果會(huì)不太一樣,針對(duì)某個(gè)特定的問(wèn)題髓窜, 你可以都實(shí)驗(yàn)一下扇苞,挑選一個(gè)表現(xiàn)最好的。 這個(gè)標(biāo)準(zhǔn)可以根據(jù) Pearson correlation 寄纵, 從你的數(shù)據(jù)集里專門拿出來(lái)一小部分做個(gè)測(cè)試鳖敷,實(shí)驗(yàn)一下,看看這個(gè)模型的訓(xùn)練結(jié)果和測(cè)試數(shù)據(jù)集吻合程度高不高程拭。 學(xué)習(xí)訓(xùn)練的結(jié)果就放在 model文件夾里面哄陶,后面就可以利用它進(jìn)行顏值評(píng)分了。
第四步哺壶, 給程序一張它沒(méi)見(jiàn)過(guò)的照片屋吨,讓計(jì)算機(jī)自己判斷吧。 我們還是要從這張照片中把人臉找出來(lái)山宾,找到人臉中的所有關(guān)鍵點(diǎn)至扰。利用關(guān)鍵點(diǎn)計(jì)算出我們感興趣的特征 (記得那篇韓國(guó)論文了沒(méi)有) ,把我們第三步生成的訓(xùn)練結(jié)果模型加載進(jìn)來(lái)资锰,利用那個(gè)訓(xùn)練過(guò)的模型進(jìn)行預(yù)測(cè)評(píng)分吧敢课。
以上就是一個(gè)機(jī)器學(xué)習(xí)的完整過(guò)程,具體實(shí)現(xiàn)請(qǐng)實(shí)驗(yàn)代碼~