曲風(fēng)(比如民樂伟件、搖滾硼啤、電音、流行)可以作為音樂的一個(gè)特征區(qū)分用戶的喜好斧账,人工標(biāo)志的曲風(fēng)有可能不準(zhǔn)谴返,因?yàn)閏nn可以識(shí)別不同的圖片局部特征,根據(jù)音樂頻譜圖咧织,可以輸入cnn網(wǎng)絡(luò)嗓袱,去識(shí)別出不同的分類。 目前使用了一種cqt圖习绢。
一般搖滾樂的cqt圖:
民樂二泉映月cqt:
流行歌曲cqt圖:
具體過程先把圖片尺寸壓縮到100100渠抹。嘗試過用原圖499687蝙昙,訓(xùn)練太慢,精度也沒有大幅提高梧却,感覺沒必要奇颠。
網(wǎng)絡(luò)構(gòu)建主要使用二維卷積,經(jīng)過若干次卷積池化放航,感覺這個(gè)過程可以根據(jù)效果調(diào)整烈拒。
各分類需要一定的樣本量。人工標(biāo)注的樣本中有一定的錯(cuò)誤樣本广鳍,會(huì)影響分類精度荆几,每次訓(xùn)練后根據(jù)對(duì)樣本的回測(cè)手動(dòng)驗(yàn)證后刪除了部分錯(cuò)誤樣本,自動(dòng)刪除可能會(huì)誤傷一些樣本搜锰,也有過擬合的風(fēng)險(xiǎn)伴郁,錯(cuò)誤樣本不去除的話對(duì)模型精度影響太大。
目前分了流行蛋叼、電音焊傅、民樂、搖滾幾類狈涮,對(duì)一種類別從播放top中召回精度約為80%左右狐胎。網(wǎng)上還搜到一種用mfcc然后一維卷積的方法(https://blog.csdn.net/zdy0_2004/article/details/43896015),感覺以后有時(shí)間可以嘗試一下歌馍。后面我們又嘗試了根據(jù)中文歌詞使用cnn模型召回?fù)u滾類別歌曲的方式握巢,召回?cái)?shù)量整體和音頻召回差不多(比音頻略少10%,可能是因?yàn)楦柙~限制為中文的緣故)松却,精度兩者類似暴浦,希望后續(xù)能找到更優(yōu)化的方法。