簡單聲明
本筆記為 CS224n 課程在學(xué)習(xí)過程中留下的筆記屑埋。整體風(fēng)格以簡潔為主,盡量去掉不必要的背景知識說明摘能,只留下個人覺得最重要的內(nèi)容以供日后參考回憶。其中部分內(nèi)容為了鞏固英語严望,可能會因為方便采用英文記錄。
課程先決條件
- Python基礎(chǔ)知識
- 高等數(shù)學(xué)像吻、概率論、線性代數(shù)知識
- 基礎(chǔ)機(jī)器學(xué)習(xí)算法
- 梯度下降
- 線性回歸
- 邏輯回歸
- Softmax
- SVM
- PAC
注:斯坦福CS229 / 周志華西瓜書
本課學(xué)習(xí)收獲總覽
- 整體自然語言處理的流程
- 深度學(xué)習(xí)的 NLP 和之前的有什么區(qū)別
- NLP 的難點(diǎn)在哪里
自然語言處理的總覽
Phonetic : representing speech sounds by means of symbols that have one value only
Phonology : the phonetics and phonemics of a language at a particular time
Morphology:a study and description of word formation (such as inflection, derivation, and compounding) in language
Syntactic:of, relating to, or according to the rules of syntax or syntactics
根據(jù)上述 Webstar 詞典的翻譯我們可以看到奸披,這個整個過程很像是通信領(lǐng)域信號的發(fā)出和接受的過程涮雷。自然語言處理系統(tǒng)的輸入分為兩個部分阵面,一個是文本的輸入(我們暫且不談)洪鸭,另一個則是語音的輸入。好的览爵,我們收到了語音,我們都知道這些語音不一定都是標(biāo)準(zhǔn)的蜓竹,可能還帶有方言之類的,所以我們首先要分析它嘶是,也就是第一個圈圈。之后由于單詞的變形有很多聂喇,所以我們要把它們?nèi)孔儞Q成原本的形式蔚携,也就是 Morphological Analysis 這個過程希太。之后酝蜒,再進(jìn)行語法(Syntactic)分析,最后再進(jìn)行語義(Semantic Interpretation)理解亡脑。
NLP 為什么難
- Complexity in representing, learning and using linguistic/situational/world/visual knowledge
- Human languages are ambiguous (unlike programming and other formal languages)
- Human language interpretation depends on real world, common sense, and contextual knowledge
機(jī)器學(xué)習(xí) VS 深度學(xué)習(xí)
如下圖所示,傳統(tǒng)的機(jī)器學(xué)習(xí)中很大一部分人工部分是人力的去觀察你的數(shù)據(jù),然后從中人為的提出特征坞嘀,這需要消耗大量的人力,甚至這個人力還必須由有博士學(xué)位的專家才能做丽涩,而機(jī)器只是代替人類做了人類不容易做到的對算法調(diào)優(yōu)的過程裁蚁。
那么深度學(xué)習(xí) (Deep Learning) 是什么呢继准,首先從宏觀的來講深度學(xué)習(xí)隸屬于表征學(xué)習(xí)(Representation Learning),即特征學(xué)習(xí)(Feature learning)移必。正如其名,表征學(xué)習(xí)就是自動的從原始數(shù)據(jù)中提取分類和特征提让氤唷(feature detection)所需要的特征(representation)憎瘸,也就是說深度學(xué)習(xí)可以做之前機(jī)器學(xué)習(xí)中人力的那部分內(nèi)容入篮。
宏觀結(jié)束了幌甘,進(jìn)入微觀理解, 如下圖所示锅风,深度學(xué)習(xí)中是一個多層的網(wǎng)絡(luò),每一層都會學(xué)習(xí)出一部分特征遏弱,然后將這些特征喂給下一層,這個學(xué)習(xí)過程可以反復(fù)的去修正 / 訓(xùn)練這些提出的特征泪姨,效率高。
最后肮砾,大家在學(xué)機(jī)器學(xué)習(xí)的時候都知道有兩種機(jī)器學(xué)習(xí)袋坑,一種是有監(jiān)督學(xué)習(xí),一種是無監(jiān)督學(xué)習(xí)枣宫。深度學(xué)習(xí)兩者都能做,這點(diǎn)是真的有點(diǎn)厲害也颤。
其他總結(jié)
這堂課中有一個很重要的總結(jié),就是在所有的 NLP 學(xué)習(xí) Level 中翅娶,所有字的表達(dá)和其表達(dá)的含義(representations for words and what they actually represent)都是用向量(Vectors)來代替的好唯。這點(diǎn)非常重要燥翅,特此記錄。