NLP 學(xué)習(xí)資源

2021年 1月31日 貪心學(xué)院高級課程 課程拼團

PART1: 基礎(chǔ)篇

  1. 自然語言處理概述

| 什么是自然語言處理

| 自然語言處理的現(xiàn)狀和前景

| 自然語言處理應(yīng)用

| 自然語言處理經(jīng)典任務(wù)

| 學(xué)習(xí)自然語言處理技術(shù)

  1. 數(shù)據(jù)結(jié)構(gòu)與算法基礎(chǔ)

| 時間復(fù)雜度、空間復(fù)雜度

| 斐波那契數(shù)列的時間和空間復(fù)雜度

| 動態(tài)規(guī)劃算法

| 經(jīng)典的DP問題

| 練習(xí):DP問題的代碼解法

| 專題:時序分析中的DTW算法

  1. 機器學(xué)習(xí)基礎(chǔ) - 邏輯回歸

| 分類問題以及邏輯回歸重要性

| 邏輯回歸的條件概率

| 最大似然估計

| 構(gòu)建邏輯回歸的目標(biāo)函數(shù)

| 優(yōu)化與梯度下降法

| 隨機梯度下降法

| 練習(xí):從零實現(xiàn)邏輯回歸

| 案例:預(yù)測客戶是否開設(shè)銀行賬戶

  1. 機器學(xué)習(xí)基礎(chǔ) - 模型的泛化

| 理解什么是過擬合

| 如何防止過擬合現(xiàn)象

| L1與L2正則

| 交叉驗證

| L1正則與拉普拉斯分布

| L2正則與高斯分布

| 練習(xí):從零實現(xiàn)邏輯回歸+L2正則

| 練習(xí):從零實現(xiàn)K折交叉驗證

| 案例:預(yù)測一個學(xué)生是否能及格

  1. 機器學(xué)習(xí)基礎(chǔ) - 其他機器學(xué)習(xí)模型

| KNN算法

| 樸素貝葉斯

| 決策樹

| 隨機森林

| 案例:預(yù)測保險電話是否能打通

PART2: 文本處理技術(shù)

  1. 分詞、詞的標(biāo)準(zhǔn)化驾凶、過濾

| 文本分析流程

| 中英文的分詞

| 最大匹配算法

| 基于語言模型的分詞

| Stemming和Lemmazation

| 停用詞的使用

| 拼寫糾錯問題

| 編輯距離的實現(xiàn)

| 暴力搜索法

| 基于后驗概率的糾錯

| 練習(xí):基于jieba的分詞

| 練習(xí):基于NLTK的分詞

| 案例:從零實現(xiàn)拼寫糾錯

  1. 文本的表示

| 單詞的獨熱編碼表示

| 句子的獨熱編碼表示

| tf-idf表示

| 句子相似度比較

| 獨熱編碼下的單詞語義相似度

| 從獨熱編碼到詞向量

| 詞向量的可視化、句子向量

| 練習(xí):詞向量的可視化

8.【項目作業(yè)】豆瓣電影評分預(yù)測

| 數(shù)據(jù)描述以及任務(wù)

| 中文分詞

| 獨熱編碼仁讨、tf-idf

| 分布式表示與Word2Vec

| BERT向量

| 句子向量

| 項目:豆瓣電影評分預(yù)測

  1. 詞向量技術(shù)

| 獨熱編碼表示的優(yōu)缺點

| 獨熱編碼與分布式表示的比較

| 靜態(tài)詞向量與動態(tài)詞向量

| 學(xué)習(xí)詞向量 - 分布式假設(shè)

| SkipGram與CBOW

| SkipGram模型的目標(biāo)

| 負(fù)采樣(Negative Sampling)

| 基于矩陣分解的詞向量學(xué)習(xí)

| 基于Glove的詞向量學(xué)習(xí)

| 在非歐式空間中的詞向量學(xué)習(xí)

| 案例:基于SkipGram的推薦

| 案例:從零實現(xiàn)Word2Vec算法

  1. 【項目作業(yè)】智能客服問答系統(tǒng)

| 問答系統(tǒng)和應(yīng)用場景

| 問答系統(tǒng)搭建流程

| 文本的向量化表示

| FastText

| 倒排表技術(shù)

| 問答系統(tǒng)中的召回

| 問答系統(tǒng)中的排序

| 項目:搭建知乎智能客服系統(tǒng)

  1. 語言模型

| 語言模型的必要性

| 馬爾科夫假設(shè)

| Unigram語言模型

| Bigram架馋、Trigram語言模型

| 語言模型的評估

| 語言模型的平滑技術(shù)

| 案例:基于語言模型的語法糾錯 (中文)

PART3: 經(jīng)典的序列模型

  1. 隱馬爾科夫模型

| HMM的應(yīng)用

| HMM的參數(shù)

| HMM的推理過程和維特比算法

| 前向、后向算法

| Complete Case中的參數(shù)估計

| Incomplete Case中的參數(shù)估計

| 案例:從零完整實現(xiàn)HMM

| 案例:基于HMM實現(xiàn)詞性分析器

  1. 無向圖模型與標(biāo)記偏置

| 有向圖與無向圖

| 無向圖中的特征函數(shù)

| 生成模型與判別模型

| 從HMM到MEMM

| MEMM中的標(biāo)記偏置問題

  1. Linear-CRF模型

| Log-Linear模型介紹

| Log-Linear與邏輯回歸

| 從Log-Linear到Linear-CRF

| Log-Linear中的參數(shù)估計

| Linear-CRF中的Partition函數(shù)計算

| Linear-CRF的參數(shù)估計

| 案例:從零實現(xiàn)Linear-CRF

| 案例:基于CRF的詞性分析

  1. 【項目作業(yè)】基于Liner-CRF的醫(yī)療實體識別

| 命名實體識別介紹

| 訓(xùn)練數(shù)據(jù)的準(zhǔn)備

| 特征工程

| 結(jié)果的評估標(biāo)準(zhǔn)

| 訓(xùn)練模型和測試模型

| 項目:利用CRF抽取并識別醫(yī)療文本中的實體

PART4: 自然語言處理與深度學(xué)習(xí)

  1. 深度學(xué)習(xí)基礎(chǔ)

| 理解神經(jīng)網(wǎng)絡(luò)

| 各類常見的激活函數(shù)

| 理解多層神經(jīng)網(wǎng)絡(luò)

| 反向傳播算法

| 神經(jīng)網(wǎng)絡(luò)中的過擬合

| 淺層模型與深層模型對比

| 深度學(xué)習(xí)中的層次表示

| 練習(xí):從零實現(xiàn)多層神經(jīng)網(wǎng)絡(luò)

| 練習(xí):激活函數(shù)的實現(xiàn)技巧

| 案例:基于神經(jīng)網(wǎng)絡(luò)的人臉識別

  1. Pytorch的使用

| 環(huán)境安裝

| Pytorch與Numpy的語法比較

| Pytorch中的Autograd用法

| Pytorch的Forward函數(shù)

| 案例:基于Pytorch的邏輯回歸實現(xiàn)

| 案例:基于Pytorch的多層神經(jīng)網(wǎng)絡(luò)實現(xiàn)

  1. RNN與LSTM

| 從HMM到RNN模型

| RNN中的梯度問題

| 解決梯度爆炸問題

| 梯度消失與LSTM

| LSTM到GRU

| 雙向LSTM模型

| 基于LSTM的生成

| 練習(xí):利用Pytorch實現(xiàn)RNN/LSTM

| 案例:基于LSTM的情感分析

| 案例:利用LSTM生成代碼

| 案例:利用LSTM寫文章

  1. Seq2Seq模型與注意力機制

| 淺談機器翻譯

| Seq2Seq模型

| Greedy Decoding

| Beam Search

| 長依賴所存在的問題

| 注意力機制

| 注意力機制的不同實現(xiàn)

| 練習(xí):利用Pytorch實現(xiàn)Seq2Seq模型

| 練習(xí):Beam Search的實現(xiàn)

| 案例:基于Seq2Seq的機器翻譯

  1. 【項目作業(yè)】智能營銷文案生成

| 任務(wù)描述码泞,數(shù)據(jù)講解

| 構(gòu)建Seq2Seq模型

| Beam Search的改造

| 模型調(diào)優(yōu)

| 評估標(biāo)準(zhǔn) Rouge

| Pointer-Generator Network

| PGN與Seq2Seq的融合

| 項目:智能營銷文案生成

  1. 動態(tài)詞向量與ELMo技術(shù)

| 基于上下文的詞向量技術(shù)

| 圖像識別中的層次表示

| 文本領(lǐng)域中的層次表示

| 深度BI-LSTM

| ELMo模型

| ELMo的訓(xùn)練與測試

| ELMo的優(yōu)缺點

| 案例:利用ELMo訓(xùn)練詞向量

  1. 自注意力機制與Transformer

| 基于LSTM模型的缺點

| Transformer結(jié)構(gòu)概覽

| 理解自注意力機制

| 位置信息的編碼

| 理解Encoder與Decoder區(qū)別

| 理解Transformer的訓(xùn)練和預(yù)測

| Transformer的缺點

| 練習(xí):從零實現(xiàn)Transformer

| 案例:基于Transformer的機器翻譯

  1. BERT與ALBERT

| 自編碼器介紹

| Transformer Encoder

| Masked LM

| BERT模型

| BERT模型不同訓(xùn)練方式

| ALBERT

| 練習(xí):從零實現(xiàn)BERT模型

| 練習(xí):從零實現(xiàn)ALBERT模型

| 案例:基于BERT-BiLSTM-CRF的命名實體識別

  1. 【項目作業(yè)】基于閑聊的對話系統(tǒng)搭建

| 對話系統(tǒng)介紹

| 常見的對話系統(tǒng)技術(shù)

| 閑聊型對話系統(tǒng)框架

| 語料庫的準(zhǔn)備

| 數(shù)據(jù)的處理

| 項目:基于閑聊的對話系統(tǒng)搭建

  1. BERT的其他變種

| RoBERTa模型

| SpanBERT模型

| FinBERT模型

| 引入先驗知識

| K-BERT

| KG-BERT

| 案例:基于KG-BERT的知識圖譜學(xué)習(xí)

  1. GPT與XLNet

| Transformer Encoder回顧

| GPT-1谁榜,GPT-2

| GPT-3

| ELMo的缺點

| 語言模型下同時考慮上下文

| Permutation LM

| 雙流自注意力機制

| Transformer-XL

| XLNet總結(jié)

PART5: 信息抽取

  1. 命名實體識別與實體消歧

| 信息抽取的應(yīng)用和關(guān)鍵技術(shù)

| 命名實體識別

| NER識別常用技術(shù)

| 實體消歧技術(shù)

| 實體消歧常用技術(shù)

| 實體統(tǒng)一技術(shù)

| 指代消解

| 案例:利用相似度算法解決實體消歧問題

  1. 關(guān)系抽取

| 關(guān)系抽取的應(yīng)用

| 基于規(guī)則的方法

| 基于監(jiān)督學(xué)習(xí)方法

| Bootstrap方法

| Distant Supervision方法

| 練習(xí):從零實現(xiàn)基于規(guī)則的方法

| 練習(xí):從零實現(xiàn)Bootstrap方法

| 案例:抽取研報中的關(guān)鍵指標(biāo)和數(shù)據(jù)

  1. 句法分析

| 句法分析以及應(yīng)用

| CFG介紹

| 從CFG到PCFG

| 評估語法樹

| 尋找最好的語法樹

| CKY算法

  1. 依存文法分析

| 從語法分析到依存文法分析

| 依存文法分析的應(yīng)用

| 使用依存文法分析

| 基于圖算法的依存文法分析

| 基于Transtion-based的依存文法分析

| 其他依存文法分析方法論

| 案例:依存文法分析在信息抽取中的應(yīng)用

  1. 知識圖譜

| 知識圖譜以及重要性

| 知識圖譜中的實體和關(guān)系

| 利用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)造知識圖譜

| 知識圖譜的設(shè)計

| 案例:基于知識圖譜的風(fēng)控案例

| 案例:基于知識圖譜的個性化教學(xué)

  1. 【項目作業(yè)】搭建基于醫(yī)療知識圖譜的問答系統(tǒng)(01.06)

| 基于知識圖譜的問答系統(tǒng)框架

| 醫(yī)療專業(yè)詞匯的使用

| 獲取問句的意圖

| 問句的解釋幅聘,提取關(guān)鍵實體

| 講意圖和關(guān)鍵信息轉(zhuǎn)化為查詢語句

| 把查詢結(jié)果轉(zhuǎn)化為自然語言的形式

| 項目:搭建基于醫(yī)療知識圖譜的問答系統(tǒng)

PART6: 圖神經(jīng)網(wǎng)絡(luò)與模型壓縮

  1. 模型的壓縮

| 模型壓縮的必要性

| 常見的模型壓縮算法總覽

| 基于矩陣分解的壓縮技術(shù)

| 從BERT到ALBERT的壓縮

| 基于貝葉斯模型的壓縮技術(shù)

| 模型的量化

| 模型的蒸餾方法

| 案例:利用Distillation壓縮Transformer模型(01.06)

| 案例:利用Distillation壓縮Seq2Seq模型(01.06)

  1. 基于圖的學(xué)習(xí)

| 圖的表示

| 圖與知識圖譜

| 基于圖表示的應(yīng)用場景

| 關(guān)于圖的一些常見算法

| Deepwalk和Node2vec

| TransE圖嵌入模型

| DSNE圖嵌入模型

| 案例:基于人工特征的朋友關(guān)系預(yù)測

| 案例:基于Node2Vec的推薦系統(tǒng)

  1. 圖神經(jīng)網(wǎng)絡(luò)

| 卷積神經(jīng)網(wǎng)絡(luò)的回顧

| 圖神經(jīng)網(wǎng)絡(luò)發(fā)展歷程

| 設(shè)計圖中的卷積操作

| 圖中的信息傳遞

| 圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)

| 練習(xí):從零實現(xiàn)GCN模型

| 案例:基于GCN的Twitter網(wǎng)絡(luò)分析

| 案例:基于GCN的商品推薦

  1. GraphSage與GAT

| GCN的優(yōu)缺點

| 從GCN到GraphSage

| 注意力機制回顧

| 注意力機制與圖表示

| GAT模型詳解

| GAT與GCN的比較

| 對于Heterogenous數(shù)據(jù)處理

| 練習(xí):從零實現(xiàn)GAT模型

| 案例:基于GAT的商品推薦

| 案例:基于GAT的虛假新聞檢測

  1. 【項目作業(yè)】新聞文本摘要生成 (01.06)

| 文本摘要生成任務(wù)介紹和應(yīng)用場景

| 基于抽取式的摘要提取技術(shù)

| 關(guān)鍵句子的提取技術(shù)

| 基于圖神經(jīng)網(wǎng)絡(luò)的摘要生成方法

| 基于生成式的摘要提取技術(shù)

| Seq2Seq、Transformer模型的使用

| 文本摘要系統(tǒng)的評估指標(biāo)

| 項目:文本摘要生成項目

  1. 方法1: 抽取式方法a: 基于圖神經(jīng)網(wǎng)絡(luò)來做關(guān)鍵語句的抽取 Heterogeneous Graph Neural Networks for Extractive Document Summarization. Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang. ACL 2020 [pdf] [code]

方法2:生成式方式a: (Transformer, BERT)

方法3:生成式方式b:Seq2Seq

beam search

經(jīng)典模型 +一點點改進

  1. 圖神經(jīng)網(wǎng)絡(luò)與其他應(yīng)用

| Node Classification

| Graph Classification

| Link Prediction

| Community Detection

| 推薦系統(tǒng)中的應(yīng)用

| 文本分類中的應(yīng)用

| 圖神經(jīng)網(wǎng)絡(luò)的未來發(fā)展

有意愿添加QQ :1098420516

https://uai.greedyai.com/details/15#team

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末窃植,一起剝皮案震驚了整個濱河市喊暖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌撕瞧,老刑警劉巖陵叽,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異丛版,居然都是意外死亡巩掺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門页畦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來胖替,“玉大人,你說我怎么就攤上這事豫缨《懒睿” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵好芭,是天一觀的道長燃箭。 經(jīng)常有香客問我,道長舍败,這世上最難降的妖魔是什么招狸? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任敬拓,我火速辦了婚禮,結(jié)果婚禮上裙戏,老公的妹妹穿的比我還像新娘乘凸。我一直安慰自己,他們只是感情好累榜,可當(dāng)我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布营勤。 她就那樣靜靜地躺著,像睡著了一般壹罚。 火紅的嫁衣襯著肌膚如雪葛作。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天渔嚷,我揣著相機與錄音,去河邊找鬼稠曼。 笑死形病,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的霞幅。 我是一名探鬼主播漠吻,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼司恳!你這毒婦竟也來了途乃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤扔傅,失蹤者是張志新(化名)和其女友劉穎耍共,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體猎塞,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡试读,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了荠耽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钩骇。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖铝量,靈堂內(nèi)的尸體忽然破棺而出倘屹,到底是詐尸還是另有隱情,我是刑警寧澤慢叨,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布纽匙,位于F島的核電站,受9級特大地震影響拍谐,放射性物質(zhì)發(fā)生泄漏哄辣。R本人自食惡果不足惜请梢,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望力穗。 院中可真熱鬧毅弧,春花似錦、人聲如沸当窗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽崖面。三九已至元咙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間巫员,已是汗流浹背庶香。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留简识,地道東北人赶掖。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像七扰,于是被迫代替她去往敵國和親奢赂。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容