人類語(yǔ)言處理
人類語(yǔ)言很復(fù)雜
- 包括文字和語(yǔ)音
- 56%的語(yǔ)言沒有文字
- 1s就有16k個(gè)樣本點(diǎn)缔刹,每個(gè)點(diǎn)有256個(gè)可能的取值
-
語(yǔ)音和文字很復(fù)雜
課程內(nèi)容
這里的model就是deep network惧磺。
硬train一發(fā)
硬train一發(fā)之后雳刺,focus近3年的進(jìn)展驳规。
課程內(nèi)容簡(jiǎn)介
語(yǔ)音辨識(shí)系統(tǒng)(automatic speech recognition寥闪, ASR)
語(yǔ)音辨識(shí)中的模型
語(yǔ)音中的seq2seq和別的領(lǐng)域中不同水孩。
語(yǔ)音合成(text-to-speech synthesis)
依然存在問(wèn)題:在真實(shí)應(yīng)用中蓝角,會(huì)出現(xiàn)問(wèn)題。(在給單獨(dú)的詞時(shí)哭懈,google 小姐的破音)
語(yǔ)音分離(speech separation)
雞尾酒會(huì)效應(yīng)(cocktail party effect)
直接硬train一發(fā)就可以獲不錯(cuò)的效果灾馒。
可以用來(lái)做變音器(voice conversion),例如柯南遣总。
問(wèn)題描述
Input audio, ouput class
- speaker recognition
-
keyword spotting(e.g., wake up words)
兩類問(wèn)題
文字生成 (Text generation )
BERT
BERT和他的朋友們
模型越來(lái)越大了睬罗。
文字生成可能的兩種方式
輸入輸出同時(shí)是文字
輸入輸出同時(shí)是文字的應(yīng)用
文法分析也可以看作文字到文字的應(yīng)用
這部分內(nèi)容,課程主要講QA系統(tǒng)旭斥。
其他學(xué)習(xí)內(nèi)容
-
Meta learning
學(xué)習(xí)如何去學(xué)習(xí)容达。
-
機(jī)器學(xué)習(xí)知識(shí)
image.png -
adversarial attack
image.png -
explainable AI
image.png