2021年 1月31日 貪心學(xué)院高級課程 課程拼團
PART1: 基礎(chǔ)篇
- 自然語言處理概述
| 什么是自然語言處理
| 自然語言處理的現(xiàn)狀和前景
| 自然語言處理應(yīng)用
| 自然語言處理經(jīng)典任務(wù)
| 學(xué)習(xí)自然語言處理技術(shù)
- 數(shù)據(jù)結(jié)構(gòu)與算法基礎(chǔ)
| 時間復(fù)雜度、空間復(fù)雜度
| 斐波那契數(shù)列的時間和空間復(fù)雜度
| 動態(tài)規(guī)劃算法
| 經(jīng)典的DP問題
| 練習(xí):DP問題的代碼解法
| 專題:時序分析中的DTW算法
- 機器學(xué)習(xí)基礎(chǔ) - 邏輯回歸
| 分類問題以及邏輯回歸重要性
| 邏輯回歸的條件概率
| 最大似然估計
| 構(gòu)建邏輯回歸的目標(biāo)函數(shù)
| 優(yōu)化與梯度下降法
| 隨機梯度下降法
| 練習(xí):從零實現(xiàn)邏輯回歸
| 案例:預(yù)測客戶是否開設(shè)銀行賬戶
- 機器學(xué)習(xí)基礎(chǔ) - 模型的泛化
| 理解什么是過擬合
| 如何防止過擬合現(xiàn)象
| L1與L2正則
| 交叉驗證
| L1正則與拉普拉斯分布
| L2正則與高斯分布
| 練習(xí):從零實現(xiàn)邏輯回歸+L2正則
| 練習(xí):從零實現(xiàn)K折交叉驗證
| 案例:預(yù)測一個學(xué)生是否能及格
- 機器學(xué)習(xí)基礎(chǔ) - 其他機器學(xué)習(xí)模型
| KNN算法
| 樸素貝葉斯
| 決策樹
| 隨機森林
| 案例:預(yù)測保險電話是否能打通
PART2: 文本處理技術(shù)
- 分詞、詞的標(biāo)準(zhǔn)化驾凶、過濾
| 文本分析流程
| 中英文的分詞
| 最大匹配算法
| 基于語言模型的分詞
| Stemming和Lemmazation
| 停用詞的使用
| 拼寫糾錯問題
| 編輯距離的實現(xiàn)
| 暴力搜索法
| 基于后驗概率的糾錯
| 練習(xí):基于jieba的分詞
| 練習(xí):基于NLTK的分詞
| 案例:從零實現(xiàn)拼寫糾錯
- 文本的表示
| 單詞的獨熱編碼表示
| 句子的獨熱編碼表示
| tf-idf表示
| 句子相似度比較
| 獨熱編碼下的單詞語義相似度
| 從獨熱編碼到詞向量
| 詞向量的可視化、句子向量
| 練習(xí):詞向量的可視化
8.【項目作業(yè)】豆瓣電影評分預(yù)測
| 數(shù)據(jù)描述以及任務(wù)
| 中文分詞
| 獨熱編碼仁讨、tf-idf
| 分布式表示與Word2Vec
| BERT向量
| 句子向量
| 項目:豆瓣電影評分預(yù)測
- 詞向量技術(shù)
| 獨熱編碼表示的優(yōu)缺點
| 獨熱編碼與分布式表示的比較
| 靜態(tài)詞向量與動態(tài)詞向量
| 學(xué)習(xí)詞向量 - 分布式假設(shè)
| SkipGram與CBOW
| SkipGram模型的目標(biāo)
| 負(fù)采樣(Negative Sampling)
| 基于矩陣分解的詞向量學(xué)習(xí)
| 基于Glove的詞向量學(xué)習(xí)
| 在非歐式空間中的詞向量學(xué)習(xí)
| 案例:基于SkipGram的推薦
| 案例:從零實現(xiàn)Word2Vec算法
- 【項目作業(yè)】智能客服問答系統(tǒng)
| 問答系統(tǒng)和應(yīng)用場景
| 問答系統(tǒng)搭建流程
| 文本的向量化表示
| FastText
| 倒排表技術(shù)
| 問答系統(tǒng)中的召回
| 問答系統(tǒng)中的排序
| 項目:搭建知乎智能客服系統(tǒng)
- 語言模型
| 語言模型的必要性
| 馬爾科夫假設(shè)
| Unigram語言模型
| Bigram架馋、Trigram語言模型
| 語言模型的評估
| 語言模型的平滑技術(shù)
| 案例:基于語言模型的語法糾錯 (中文)
PART3: 經(jīng)典的序列模型
- 隱馬爾科夫模型
| HMM的應(yīng)用
| HMM的參數(shù)
| HMM的推理過程和維特比算法
| 前向、后向算法
| Complete Case中的參數(shù)估計
| Incomplete Case中的參數(shù)估計
| 案例:從零完整實現(xiàn)HMM
| 案例:基于HMM實現(xiàn)詞性分析器
- 無向圖模型與標(biāo)記偏置
| 有向圖與無向圖
| 無向圖中的特征函數(shù)
| 生成模型與判別模型
| 從HMM到MEMM
| MEMM中的標(biāo)記偏置問題
- Linear-CRF模型
| Log-Linear模型介紹
| Log-Linear與邏輯回歸
| 從Log-Linear到Linear-CRF
| Log-Linear中的參數(shù)估計
| Linear-CRF中的Partition函數(shù)計算
| Linear-CRF的參數(shù)估計
| 案例:從零實現(xiàn)Linear-CRF
| 案例:基于CRF的詞性分析
- 【項目作業(yè)】基于Liner-CRF的醫(yī)療實體識別
| 命名實體識別介紹
| 訓(xùn)練數(shù)據(jù)的準(zhǔn)備
| 特征工程
| 結(jié)果的評估標(biāo)準(zhǔn)
| 訓(xùn)練模型和測試模型
| 項目:利用CRF抽取并識別醫(yī)療文本中的實體
PART4: 自然語言處理與深度學(xué)習(xí)
- 深度學(xué)習(xí)基礎(chǔ)
| 理解神經(jīng)網(wǎng)絡(luò)
| 各類常見的激活函數(shù)
| 理解多層神經(jīng)網(wǎng)絡(luò)
| 反向傳播算法
| 神經(jīng)網(wǎng)絡(luò)中的過擬合
| 淺層模型與深層模型對比
| 深度學(xué)習(xí)中的層次表示
| 練習(xí):從零實現(xiàn)多層神經(jīng)網(wǎng)絡(luò)
| 練習(xí):激活函數(shù)的實現(xiàn)技巧
| 案例:基于神經(jīng)網(wǎng)絡(luò)的人臉識別
- Pytorch的使用
| 環(huán)境安裝
| Pytorch與Numpy的語法比較
| Pytorch中的Autograd用法
| Pytorch的Forward函數(shù)
| 案例:基于Pytorch的邏輯回歸實現(xiàn)
| 案例:基于Pytorch的多層神經(jīng)網(wǎng)絡(luò)實現(xiàn)
- RNN與LSTM
| 從HMM到RNN模型
| RNN中的梯度問題
| 解決梯度爆炸問題
| 梯度消失與LSTM
| LSTM到GRU
| 雙向LSTM模型
| 基于LSTM的生成
| 練習(xí):利用Pytorch實現(xiàn)RNN/LSTM
| 案例:基于LSTM的情感分析
| 案例:利用LSTM生成代碼
| 案例:利用LSTM寫文章
- Seq2Seq模型與注意力機制
| 淺談機器翻譯
| Seq2Seq模型
| Greedy Decoding
| Beam Search
| 長依賴所存在的問題
| 注意力機制
| 注意力機制的不同實現(xiàn)
| 練習(xí):利用Pytorch實現(xiàn)Seq2Seq模型
| 練習(xí):Beam Search的實現(xiàn)
| 案例:基于Seq2Seq的機器翻譯
- 【項目作業(yè)】智能營銷文案生成
| 任務(wù)描述码泞,數(shù)據(jù)講解
| 構(gòu)建Seq2Seq模型
| Beam Search的改造
| 模型調(diào)優(yōu)
| 評估標(biāo)準(zhǔn) Rouge
| Pointer-Generator Network
| PGN與Seq2Seq的融合
| 項目:智能營銷文案生成
- 動態(tài)詞向量與ELMo技術(shù)
| 基于上下文的詞向量技術(shù)
| 圖像識別中的層次表示
| 文本領(lǐng)域中的層次表示
| 深度BI-LSTM
| ELMo模型
| ELMo的訓(xùn)練與測試
| ELMo的優(yōu)缺點
| 案例:利用ELMo訓(xùn)練詞向量
- 自注意力機制與Transformer
| 基于LSTM模型的缺點
| Transformer結(jié)構(gòu)概覽
| 理解自注意力機制
| 位置信息的編碼
| 理解Encoder與Decoder區(qū)別
| 理解Transformer的訓(xùn)練和預(yù)測
| Transformer的缺點
| 練習(xí):從零實現(xiàn)Transformer
| 案例:基于Transformer的機器翻譯
- BERT與ALBERT
| 自編碼器介紹
| Transformer Encoder
| Masked LM
| BERT模型
| BERT模型不同訓(xùn)練方式
| ALBERT
| 練習(xí):從零實現(xiàn)BERT模型
| 練習(xí):從零實現(xiàn)ALBERT模型
| 案例:基于BERT-BiLSTM-CRF的命名實體識別
- 【項目作業(yè)】基于閑聊的對話系統(tǒng)搭建
| 對話系統(tǒng)介紹
| 常見的對話系統(tǒng)技術(shù)
| 閑聊型對話系統(tǒng)框架
| 語料庫的準(zhǔn)備
| 數(shù)據(jù)的處理
| 項目:基于閑聊的對話系統(tǒng)搭建
- BERT的其他變種
| RoBERTa模型
| SpanBERT模型
| FinBERT模型
| 引入先驗知識
| K-BERT
| KG-BERT
| 案例:基于KG-BERT的知識圖譜學(xué)習(xí)
- GPT與XLNet
| Transformer Encoder回顧
| GPT-1谁榜,GPT-2
| GPT-3
| ELMo的缺點
| 語言模型下同時考慮上下文
| Permutation LM
| 雙流自注意力機制
| Transformer-XL
| XLNet總結(jié)
PART5: 信息抽取
- 命名實體識別與實體消歧
| 信息抽取的應(yīng)用和關(guān)鍵技術(shù)
| 命名實體識別
| NER識別常用技術(shù)
| 實體消歧技術(shù)
| 實體消歧常用技術(shù)
| 實體統(tǒng)一技術(shù)
| 指代消解
| 案例:利用相似度算法解決實體消歧問題
- 關(guān)系抽取
| 關(guān)系抽取的應(yīng)用
| 基于規(guī)則的方法
| 基于監(jiān)督學(xué)習(xí)方法
| Bootstrap方法
| Distant Supervision方法
| 練習(xí):從零實現(xiàn)基于規(guī)則的方法
| 練習(xí):從零實現(xiàn)Bootstrap方法
| 案例:抽取研報中的關(guān)鍵指標(biāo)和數(shù)據(jù)
- 句法分析
| 句法分析以及應(yīng)用
| CFG介紹
| 從CFG到PCFG
| 評估語法樹
| 尋找最好的語法樹
| CKY算法
- 依存文法分析
| 從語法分析到依存文法分析
| 依存文法分析的應(yīng)用
| 使用依存文法分析
| 基于圖算法的依存文法分析
| 基于Transtion-based的依存文法分析
| 其他依存文法分析方法論
| 案例:依存文法分析在信息抽取中的應(yīng)用
- 知識圖譜
| 知識圖譜以及重要性
| 知識圖譜中的實體和關(guān)系
| 利用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)造知識圖譜
| 知識圖譜的設(shè)計
| 案例:基于知識圖譜的風(fēng)控案例
| 案例:基于知識圖譜的個性化教學(xué)
- 【項目作業(yè)】搭建基于醫(yī)療知識圖譜的問答系統(tǒng)(01.06)
| 基于知識圖譜的問答系統(tǒng)框架
| 醫(yī)療專業(yè)詞匯的使用
| 獲取問句的意圖
| 問句的解釋幅聘,提取關(guān)鍵實體
| 講意圖和關(guān)鍵信息轉(zhuǎn)化為查詢語句
| 把查詢結(jié)果轉(zhuǎn)化為自然語言的形式
| 項目:搭建基于醫(yī)療知識圖譜的問答系統(tǒng)
PART6: 圖神經(jīng)網(wǎng)絡(luò)與模型壓縮
- 模型的壓縮
| 模型壓縮的必要性
| 常見的模型壓縮算法總覽
| 基于矩陣分解的壓縮技術(shù)
| 從BERT到ALBERT的壓縮
| 基于貝葉斯模型的壓縮技術(shù)
| 模型的量化
| 模型的蒸餾方法
| 案例:利用Distillation壓縮Transformer模型(01.06)
| 案例:利用Distillation壓縮Seq2Seq模型(01.06)
- 基于圖的學(xué)習(xí)
| 圖的表示
| 圖與知識圖譜
| 基于圖表示的應(yīng)用場景
| 關(guān)于圖的一些常見算法
| Deepwalk和Node2vec
| TransE圖嵌入模型
| DSNE圖嵌入模型
| 案例:基于人工特征的朋友關(guān)系預(yù)測
| 案例:基于Node2Vec的推薦系統(tǒng)
- 圖神經(jīng)網(wǎng)絡(luò)
| 卷積神經(jīng)網(wǎng)絡(luò)的回顧
| 圖神經(jīng)網(wǎng)絡(luò)發(fā)展歷程
| 設(shè)計圖中的卷積操作
| 圖中的信息傳遞
| 圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)
| 練習(xí):從零實現(xiàn)GCN模型
| 案例:基于GCN的Twitter網(wǎng)絡(luò)分析
| 案例:基于GCN的商品推薦
- GraphSage與GAT
| GCN的優(yōu)缺點
| 從GCN到GraphSage
| 注意力機制回顧
| 注意力機制與圖表示
| GAT模型詳解
| GAT與GCN的比較
| 對于Heterogenous數(shù)據(jù)處理
| 練習(xí):從零實現(xiàn)GAT模型
| 案例:基于GAT的商品推薦
| 案例:基于GAT的虛假新聞檢測
- 【項目作業(yè)】新聞文本摘要生成 (01.06)
| 文本摘要生成任務(wù)介紹和應(yīng)用場景
| 基于抽取式的摘要提取技術(shù)
| 關(guān)鍵句子的提取技術(shù)
| 基于圖神經(jīng)網(wǎng)絡(luò)的摘要生成方法
| 基于生成式的摘要提取技術(shù)
| Seq2Seq、Transformer模型的使用
| 文本摘要系統(tǒng)的評估指標(biāo)
| 項目:文本摘要生成項目
- 方法1: 抽取式方法a: 基于圖神經(jīng)網(wǎng)絡(luò)來做關(guān)鍵語句的抽取 Heterogeneous Graph Neural Networks for Extractive Document Summarization. Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang. ACL 2020 [pdf] [code]
方法2:生成式方式a: (Transformer, BERT)
方法3:生成式方式b:Seq2Seq
beam search
經(jīng)典模型 +一點點改進
- 圖神經(jīng)網(wǎng)絡(luò)與其他應(yīng)用
| Node Classification
| Graph Classification
| Link Prediction
| Community Detection
| 推薦系統(tǒng)中的應(yīng)用
| 文本分類中的應(yīng)用
| 圖神經(jīng)網(wǎng)絡(luò)的未來發(fā)展