跨語言文本查重代碼中的問題總結(jié)

一、一些代碼中的問題

將一個列表轉(zhuǎn)化為空格隔開的字符串

第一種方法：test=['1','2','23']

           print(' '.join(test))
                    輸出結(jié)果為：1 2 23

第二種方法：test=['1','2','23']

           for x in test:

           print(x,end=" ")
                   輸出結(jié)果為：1 2 23

文件讀寫（去查菜鳥教程）
Python3 File(文件) 方法
 python：write()/writelines()的區(qū)別
 python：read()/readline()/readlines()區(qū)別
注意文件編碼問題：utf-8和gbk
如何打開.pkl文件涩维，查看.pkl文件里的內(nèi)容（Python3.6）
深度學(xué)習(xí)中常用函數(shù)

enumerate() 函數(shù)
Numpy中常用的保存與讀取數(shù)據(jù)的方法
python列表操作：extend()和append()

二氯哮、pytorch中一些常見操作

1渠缕、維度的變化

減少維度

out=out[:,-1,:]
lstm的輸出形狀(batch，seq_len, hidden_size*2)
因為要接fc觉至，所以使用out=out[:,-1,:]育灸，將seq_len這個維度去掉了。
squeeze()
squeeze(arg)表示第arg維的維度值為1蝇狼，則去掉該維度。否則tensor不變倡怎。

增加維度
unsqueeze()：
unsqueeze(arg)與squeeze(arg)作用相反，表示在第arg維增加一個維度值為1的維度
檢驗?zāi)Ｐ褪欠裾_模型
用下面這三個逐步來檢查模型前向傳導(dǎo)的中間結(jié)果贱枣，并記錄結(jié)果的維度和代表含義

 print("out:")
       print(out)
       print(out.size()) # 獲取向量的維數(shù)和對應(yīng)的維度
       time.sleep(1000) # 休眠以便觀察

       一些情況下也可用：print(x.dtype) #獲取張量里的數(shù)據(jù)類型

參考
pytorch的英文API文檔
pytorch常用張量維度操作
pytorch中tensor的squeeze()和unsqueeze()
pytorch中降維的騷操作：out = out[:,-1,:]

2监署、數(shù)據(jù)要求和轉(zhuǎn)換

對于數(shù)據(jù)的要求

訓(xùn)練的批量樣本數(shù)據(jù)輸入值需要是long值的Tensor數(shù)據(jù)，而不是int值的Tensor數(shù)據(jù)
在訓(xùn)練網(wǎng)絡(luò)的過程中由于類型的沖突導(dǎo)致這種錯誤纽哥，主要是模型內(nèi)部參數(shù)和輸入類型不一致所導(dǎo)致的钠乏。主要有兩個部分需要注意到：1.自己定義的變量要設(shè)置為一種數(shù)據(jù)類型；2.網(wǎng)絡(luò)內(nèi)部的變量類型也要統(tǒng)一春塌。
我自己碰到的：計算cosine_similarity函數(shù)的兩個輸入?yún)?shù)必須是同一類晓避，不然會報錯簇捍。

參考：

Pytorch:dtype不一致(expected dtype Double but got dtype Float)
pytorch中tensor張量數(shù)據(jù)類型的轉(zhuǎn)化

三、一些關(guān)于深度學(xué)習(xí)的一些知識

1俏拱、中英文文本預(yù)處理

英文采用nltk分詞
大寫字母轉(zhuǎn)換成小寫字母 --> 去除標點符號 --> 分詞 --> 去除停用詞 --> 提取詞干(在英文中有很多變形暑塑，比如cleaning/cleans/cleaned等等，這些和clean都是一個意思锅必，這里我們要對其提取詞干)
中文采用jieba分詞
去除非中文部分（如標點符號） --> 中文分詞 --> 去除停用詞
代碼實現(xiàn)參考：
python ：中英文文本預(yù)處理
 NLP入門-- 文本預(yù)處理Pre-processing
分詞工具
- 中文分詞工具：
  下面排名根據(jù) GitHub 上的 star 數(shù)排名：
  Hanlp Stanford分詞 ansj分詞器哈工大LTP KCWS分詞器 jieba(采用) IK 清華大學(xué)THULAC ICTCLAS
- 英文分詞工具：
  Keras Spacy Gensim NLTK(采用)

2事格、得到預(yù)訓(xùn)練詞向量(跨語言詞向量)

看論文附的代碼

3、如何使用預(yù)訓(xùn)練詞向量

實現(xiàn)過程和原理

實現(xiàn)過程：先是進行一個對象初始化搞隐，然后加載預(yù)訓(xùn)練詞向量驹愚，然后把預(yù)訓(xùn)練詞向量copy進去。
原理：我們知道預(yù)訓(xùn)練詞向量肯定也是一個詞向量矩陣對象劣纲，這里是通過單詞獲取詞向量權(quán)重逢捺。我們要做的就是做到類似pytorch自帶的那種權(quán)重初始化，得到一個單詞-索引-權(quán)重對應(yīng)的關(guān)系癞季。預(yù)訓(xùn)練對象得到的是單詞-權(quán)重劫瞳。我們要得到的是索引-權(quán)重。

參考

文本分類算法中的相關(guān)實現(xiàn)
tensorflow如何正確加載預(yù)訓(xùn)練詞向量
pytorch中如何使用預(yù)訓(xùn)練詞向量

4余佛、數(shù)據(jù)集和迭代器構(gòu)建

Iteration, Batch, Epoch

深度學(xué)習(xí) | 三個概念：Epoch, Batch, Iteration

訓(xùn)練集柠新，驗證集和測試集的作用
見西瓜書
對于文本預(yù)處理、數(shù)據(jù)集的構(gòu)建辉巡、迭代器
建議可以嘗試torchtext恨憎，一步到位
torchtext入門教程，輕松玩轉(zhuǎn)文本數(shù)據(jù)處理

5郊楣、模型構(gòu)建

pytorch的英文API文檔

[NLP] TextCNN模型原理和實現(xiàn)
LSTM神經(jīng)網(wǎng)絡(luò)輸入輸出究竟是怎樣的憔恳？
常見激活函數(shù)總結(jié)
常見的損失函數(shù)(loss function)總結(jié)

6、模型訓(xùn)練

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末净蚤，一起剝皮案震驚了整個濱河市钥组，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌今瀑，老刑警劉巖程梦，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異橘荠，居然都是意外死亡屿附，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門哥童，熙熙樓的掌柜王于貴愁眉苦臉地迎上來挺份，“玉大人，你說我怎么就攤上這事贮懈≡炔矗” “怎么了优训？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長各聘。經(jīng)常有香客問我揣非，道長，這世上最難降的妖魔是什么伦吠？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任妆兑，我火速辦了婚禮，結(jié)果婚禮上毛仪，老公的妹妹穿的比我還像新娘搁嗓。我一直安慰自己，他們只是感情好箱靴，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布腺逛。她就那樣靜靜地躺著，像睡著了一般衡怀。火紅的嫁衣襯著肌膚如雪棍矛。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天抛杨，我揣著相機與錄音够委，去河邊找鬼。笑死怖现，一個胖子當著我的面吹牛茁帽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播屈嗤，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼潘拨，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了饶号？” 一聲冷哼從身側(cè)響起铁追，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎茫船，沒想到半個月后琅束，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡算谈，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年涩禀，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片濒生。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖幔欧，靈堂內(nèi)的尸體忽然破棺而出罪治，到底是詐尸還是另有隱情丽声，我是刑警寧澤，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布觉义，位于F島的核電站雁社，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏晒骇。R本人自食惡果不足惜霉撵，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望洪囤。院中可真熱鬧徒坡，春花似錦、人聲如沸瘤缩。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽剥啤。三九已至锦溪，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間府怯，已是汗流浹背刻诊。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留牺丙，地道東北人则涯。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓，卻偏偏與公主長得像赘被，于是被迫代替她去往敵國和親是整。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355

跨語言文本查重代碼中的問題總結(jié)

一、一些代碼中的問題

二氯哮、pytorch中一些常見操作

1渠缕、維度的變化

2监署、數(shù)據(jù)要求和轉(zhuǎn)換

三、一些關(guān)于深度學(xué)習(xí)的一些知識

1俏拱、中英文文本預(yù)處理

2事格、得到預(yù)訓(xùn)練詞向量(跨語言詞向量)

3、如何使用預(yù)訓(xùn)練詞向量

4余佛、數(shù)據(jù)集和迭代器構(gòu)建

5郊楣、模型構(gòu)建

6、模型訓(xùn)練

推薦閱讀更多精彩內(nèi)容