跨語言文本查重代碼中的問題總結(jié)

一、一些代碼中的問題

  1. 將一個列表 轉(zhuǎn)化為空格隔開的字符串
第一種方法:test=['1','2','23']

           print(' '.join(test))
                    輸出結(jié)果為:1 2 23

第二種方法:test=['1','2','23']

           for x in test:

           print(x,end=" ")
                   輸出結(jié)果為:1 2 23

  1. 文件讀寫(去查菜鳥教程)
    Python3 File(文件) 方法
    python:write()/writelines()的區(qū)別
    python:read()/readline()/readlines()區(qū)別

  2. 注意文件編碼問題:utf-8和gbk

  3. 如何打開.pkl文件涩维,查看.pkl文件里的內(nèi)容(Python3.6)

  4. 深度學(xué)習(xí)中常用函數(shù)

二氯哮、pytorch中一些常見操作

1渠缕、維度的變化
  1. 減少維度
  • out=out[:,-1,:]
    lstm的輸出形狀(batch,seq_len, hidden_size*2)
    因為要接fc觉至,所以使用out=out[:,-1,:]育灸,將seq_len這個維度去掉了。
  • squeeze()
    squeeze(arg)表示第arg維的維度值為1蝇狼,則去掉該維度。否則tensor不變倡怎。
  1. 增加維度
    unsqueeze():
    unsqueeze(arg)與squeeze(arg)作用相反,表示在第arg維增加一個維度值為1的維度
  2. 檢驗?zāi)P褪欠裾_模型
    用下面這三個逐步來檢查模型前向傳導(dǎo)的中間結(jié)果贱枣,并記錄結(jié)果的維度和代表含義
 print("out:")
       print(out)
       print(out.size()) # 獲取向量的維數(shù)和對應(yīng)的維度
       time.sleep(1000) # 休眠以便觀察

       一些情況下也可用:print(x.dtype) #獲取張量里的數(shù)據(jù)類型
  1. 參考
    pytorch的英文API文檔
    pytorch常用張量維度操作
    pytorch中tensor的squeeze()和unsqueeze()
    pytorch中降維的騷操作:out = out[:,-1,:]
2监署、數(shù)據(jù)要求和轉(zhuǎn)換
  1. 對于數(shù)據(jù)的要求
  1. 參考:

三、一些關(guān)于深度學(xué)習(xí)的一些知識

1俏拱、中英文文本預(yù)處理
  • 英文采用nltk分詞
    大寫字母轉(zhuǎn)換成小寫字母 --> 去除標點符號 --> 分詞 --> 去除停用詞 --> 提取詞干(在英文中有很多變形暑塑,比如cleaning/cleans/cleaned等等,這些和clean都是一個意思锅必,這里我們要對其提取詞干)
  • 中文采用jieba分詞
    去除非中文部分(如標點符號) --> 中文分詞 --> 去除停用詞
  • 代碼實現(xiàn)參考:
    python :中英文文本預(yù)處理
    NLP入門-- 文本預(yù)處理Pre-processing
  • 分詞工具
    • 中文分詞工具:
      下面排名根據(jù) GitHub 上的 star 數(shù)排名:
      Hanlp Stanford分詞 ansj分詞器 哈工大LTP KCWS分詞器 jieba(采用) IK 清華大學(xué)THULAC ICTCLAS
    • 英文分詞工具:
      Keras Spacy Gensim NLTK(采用)
2事格、得到預(yù)訓(xùn)練詞向量(跨語言詞向量)

看論文附的代碼

3、如何使用預(yù)訓(xùn)練詞向量
  1. 實現(xiàn)過程和原理
  • 實現(xiàn)過程:先是進行一個對象初始化搞隐,然后加載預(yù)訓(xùn)練詞向量驹愚,然后把預(yù)訓(xùn)練詞向量copy進去。
  • 原理:我們知道預(yù)訓(xùn)練詞向量肯定也是一個詞向量矩陣對象劣纲,這里是通過單詞獲取詞向量權(quán)重逢捺。我們要做的就是做到類似pytorch自帶的那種權(quán)重初始化,得到一個單詞-索引-權(quán)重對應(yīng)的關(guān)系癞季。預(yù)訓(xùn)練對象得到的是單詞-權(quán)重劫瞳。我們要得到的是索引-權(quán)重。
  1. 參考
4余佛、數(shù)據(jù)集和迭代器構(gòu)建
  1. Iteration, Batch, Epoch

深度學(xué)習(xí) | 三個概念:Epoch, Batch, Iteration

  1. 訓(xùn)練集柠新,驗證集和測試集的作用
    見西瓜書

  2. 對于文本預(yù)處理、數(shù)據(jù)集的構(gòu)建辉巡、迭代器
    建議可以嘗試torchtext恨憎,一步到位
    torchtext入門教程,輕松玩轉(zhuǎn)文本數(shù)據(jù)處理

5郊楣、模型構(gòu)建

pytorch的英文API文檔

6、模型訓(xùn)練
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末净蚤,一起剝皮案震驚了整個濱河市钥组,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌今瀑,老刑警劉巖程梦,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異橘荠,居然都是意外死亡屿附,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門哥童,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挺份,“玉大人,你說我怎么就攤上這事贮懈≡炔矗” “怎么了优训?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長各聘。 經(jīng)常有香客問我揣非,道長,這世上最難降的妖魔是什么伦吠? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任妆兑,我火速辦了婚禮,結(jié)果婚禮上毛仪,老公的妹妹穿的比我還像新娘搁嗓。我一直安慰自己,他們只是感情好箱靴,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布腺逛。 她就那樣靜靜地躺著,像睡著了一般衡怀。 火紅的嫁衣襯著肌膚如雪棍矛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天抛杨,我揣著相機與錄音够委,去河邊找鬼。 笑死怖现,一個胖子當著我的面吹牛茁帽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播屈嗤,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼潘拨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了饶号?” 一聲冷哼從身側(cè)響起铁追,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎茫船,沒想到半個月后琅束,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡算谈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年涩禀,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片濒生。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖幔欧,靈堂內(nèi)的尸體忽然破棺而出罪治,到底是詐尸還是另有隱情丽声,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布觉义,位于F島的核電站雁社,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏晒骇。R本人自食惡果不足惜霉撵,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望洪囤。 院中可真熱鬧徒坡,春花似錦、人聲如沸瘤缩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽剥啤。三九已至锦溪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間府怯,已是汗流浹背刻诊。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留牺丙,地道東北人则涯。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像赘被,于是被迫代替她去往敵國和親是整。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容