報(bào)告摘要:
????作為語(yǔ)言的聲音表現(xiàn)形式揖闸,語(yǔ)音不僅包含了語(yǔ)言語(yǔ)義信息手素,同時(shí)也傳達(dá)了說(shuō)話人荒澡,語(yǔ)種喻旷,性別囊蓝,年齡膝舅,情感拥知,信道山卦,嗓音梅猿,病理氓辣,生理,心理等多種豐富的副語(yǔ)言語(yǔ)音屬性信息袱蚓。把以上這些副語(yǔ)言語(yǔ)音屬性識(shí)別問(wèn)題整體來(lái)看钞啸,其核心都是針對(duì)不定時(shí)長(zhǎng)文本無(wú)關(guān)的句子層面語(yǔ)音信號(hào)的有監(jiān)督學(xué)習(xí)問(wèn)題,只是要識(shí)別的屬性標(biāo)注有不同。我將從特征提取体斩,建立模型梭稚,魯棒性處理,分類器設(shè)計(jì)等幾個(gè)步驟介紹我們近期的研究絮吵,然后也將介紹我們最近基于端到端深度學(xué)習(xí)框架去開展多種不同的副語(yǔ)言語(yǔ)音屬性識(shí)別的研究弧烤。最后,我將介紹我們組在多模態(tài)行為信號(hào)分析與理解方面的工作蹬敲。我們聯(lián)合多模態(tài)信號(hào)處理與機(jī)器學(xué)習(xí)對(duì)表情暇昂,動(dòng)作,語(yǔ)音伴嗡,眼動(dòng)急波,生理等數(shù)據(jù)進(jìn)行聯(lián)合分析,將醫(yī)生主觀的行為觀察轉(zhuǎn)化為客觀的可量化的描述指標(biāo)瘪校,用于孤獨(dú)癥輔助診斷以及療效評(píng)估澄暮。
報(bào)告人簡(jiǎn)介:
????李明,昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授阱扬,美國(guó)杜克大學(xué)電子與計(jì)算機(jī)工程系客座教授泣懊。2005年獲南京大學(xué)通信工程專業(yè)學(xué)士學(xué)位,2008年獲中科院聲學(xué)所信號(hào)與信息處理專業(yè)碩士學(xué)位价认,2013年畢業(yè)于美國(guó)南加州大學(xué)電子工程系嗅定,獲工學(xué)博士學(xué)位。2013-2017年任教于中山大學(xué)卡內(nèi)基梅隆大學(xué)聯(lián)合工程學(xué)院及電子與信息工程學(xué)院用踩,副教授渠退,博士生導(dǎo)師。研究方向包括音頻語(yǔ)音信息處理脐彩,多模態(tài)行為信號(hào)分析等多個(gè)方向碎乃。已發(fā)表學(xué)術(shù)論文80 余篇,其中SCI期刊論文19篇惠奸。曾擔(dān)任多個(gè)知名學(xué)術(shù)會(huì)議的科學(xué)委員會(huì)成員(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多個(gè)知名學(xué)術(shù)期刊的審稿人(IEEE TPA
MI梅誓,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),擔(dān)任Interspeech2016及2018說(shuō)話人識(shí)別領(lǐng)域主席佛南。榮獲了2009年Body Computing Slam Contest 第一名梗掰,IEEE DCOSS 2009 會(huì)議最佳論文獎(jiǎng)。指導(dǎo)學(xué)生獲得ISCSLP2016最佳學(xué)生論文獎(jiǎng)嗅回,于2011年和2012年連續(xù)兩次獲得了INTERSPEECH speaker state challenge 第一名及穗。2016年被授予IBM Faculty Award。
總結(jié):
????目前隨著人工智能绵载、大數(shù)據(jù)埂陆,機(jī)器學(xué)習(xí)的發(fā)展苛白,多使用神經(jīng)網(wǎng)絡(luò)來(lái)處理,做成端到端(黑箱)焚虱,即放進(jìn)原始數(shù)據(jù)购裙,輸出結(jié)果,這種方式也能達(dá)到經(jīng)典的統(tǒng)計(jì)模型方法鹃栽,但神經(jīng)網(wǎng)絡(luò)具體原理躏率,目前還沒(méi)能解釋的令人滿意。
? ? 人臉識(shí)別一般用開源的caffe和TensorFlow來(lái)搭建
? ? 數(shù)據(jù)很值錢谍咆,有的企業(yè)專門賣數(shù)據(jù)禾锤,比如錄的語(yǔ)音的標(biāo)記(有些地方需要人工標(biāo)記)