NLP自然語言處理資料匯總

NLP民工的樂園

[toc]

NLP民工的樂園: 幾乎最全的中文NLP資源庫

https://github.com/fighting41love/funNLP
詞庫
工具包
學(xué)習(xí)資料

在入門到熟悉NLP的過程中宾濒，用到了很多github上的包楷掉，遂整理了一下，分享在這里掂骏。

1. textfilter: 中英文敏感詞過濾 observerss/textfilter

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

敏感詞包括政治、臟話等話題詞匯惠桃。其原理主要是基于詞典的查找（項(xiàng)目中的keyword文件），內(nèi)容很勁爆惰爬。喊暖。。

2. langid：97種語言檢測 https://github.com/saffsd/langid.py

pip install langid

>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)

3. langdetect：另一個(gè)語言檢測https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect
from langdetect import detect_langs

s1 = "本篇博客主要介紹兩款語言探測工具撕瞧，用于區(qū)分文本到底是什么語言陵叽，"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3))    # detect_langs()輸出探測出的所有語言類型及其所占的比例

輸出結(jié)果如下：注：語言類型主要參考的是ISO 639-1語言編碼標(biāo)準(zhǔn)，詳見ISO 639-1百度百科

跟上一個(gè)語言檢測比較丛版，準(zhǔn)確率低巩掺，效率高。

4. phone 中國手機(jī)歸屬地查詢： ls0f/phone

已集成到 python package cocoNLP中页畦，歡迎試用

from phone import Phone
p  = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}

支持號(hào)段: 13*,15*,18*,14[5,7],17[0,6,7,8]

記錄條數(shù): 360569 (updated:2017年4月)

作者提供了數(shù)據(jù)phone.dat 方便非python用戶Load數(shù)據(jù)胖替。

5. phone國際手機(jī)、電話歸屬地查詢：AfterShip/phone

npm install phone

import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根據(jù)名字判斷性別：observerss/ngender 基于樸素貝葉斯計(jì)算的概率

pip install ngender

>>> import ngender
>>> ngender.guess('趙本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

7. 抽取email的正則表達(dá)式

已集成到 python package cocoNLP中豫缨，歡迎試用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_number的正則表達(dá)式

已集成到 python package cocoNLP中独令，歡迎試用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取身份證號(hào)的正則表達(dá)式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名語料庫： wainshine/Chinese-Names-Corpus

人名抽取功能 python package cocoNLP，歡迎試用

中文（現(xiàn)代好芭、古代）名字燃箭、日文名字、中文的姓和名舍败、稱呼（大姨媽招狸、小姨媽等）、英文->中文名字（李約翰）邻薯、成語詞典

（可用于中文分詞裙戏、姓名識(shí)別）

11. 中文縮寫庫：github

全國人大: 全國/n 人民/n 代表大會(huì)/n
中國: 中華人民共和國/ns
女網(wǎng)賽: 女子/n 網(wǎng)球/n 比賽/vn

12. 漢語拆字詞典：kfcd/chaizi

漢字      拆法 (一)  拆法 (二)  拆法 (三)
拆       手 斥     扌 斥     才 斥

13. 詞匯情感值：rainarch/SentiBridge

山泉水     充沛      0.400704566541  0.370067395878
視野              寬廣      0.305762728932  0.325320747491
大峽谷     驚險(xiǎn)      0.312137906517  0.378594957281

14. 中文詞庫、停用詞弛说、敏感詞 dongxiexidian/Chinese

此package的敏感詞庫分類更細(xì)：

反動(dòng)詞庫挽懦，敏感詞庫表統(tǒng)計(jì)，暴恐詞庫木人，民生詞庫信柿，色情詞庫

15. 漢字轉(zhuǎn)拼音：mozillazg/python-pinyin

文本糾錯(cuò)會(huì)用到

16. 中文繁簡體互轉(zhuǎn)：skydark/nstools

17. 英文模擬中文發(fā)音引擎 funny chinese text to speech enginee：tinyfool/ChineseWithEnglish

say wo i ni
#說：我愛你

相當(dāng)于用英文音標(biāo)冀偶，模擬中文發(fā)音。

18. 汪峰歌詞生成器：phunterlau/wangfeng-rnn

我在這里中的夜里
就像一場是一種生命的意旪
就像我的生活變得在我一樣
可我們這是一個(gè)知道
我只是一天你會(huì)怎嗎

19. 同義詞庫渔嚷、反義詞庫进鸠、否定詞庫：guotong1988/chinese_dictionary

20. 無空格英文串分割、抽取單詞：wordninja

>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']

21. IP地址正則表達(dá)式：

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 騰訊QQ號(hào)正則表達(dá)式：

[1-9]([0-9]{5,11})

23. 國內(nèi)固話號(hào)碼正則表達(dá)式：

[0-9-()（）]{7,18}

24. 用戶名正則表達(dá)式：

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽車品牌形病、汽車零件相關(guān)詞匯：

見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 時(shí)間抽瓤湍辍：

已集成到 python package cocoNLP中，歡迎試用

在2016年6月7日9:44執(zhí)行測試漠吻，結(jié)果如下

Hi量瓜，all。下周一下午三點(diǎn)開會(huì)

>> 2016-06-13 15:00:00-false

周一開會(huì)

>> 2016-06-13 00:00:00-true

下下周一開會(huì)

>> 2016-06-20 00:00:00-true

java version

python version

27. 各種中文詞向量： github repo

中文詞向量大全

28. 公司名字大全： github repo

29. 古詩詞庫： github repo 更全的古詩詞庫

30. THU整理的詞庫： link

已整理到本repo的data文件夾中.

IT詞庫途乃、財(cái)經(jīng)詞庫绍傲、成語詞庫、地名詞庫耍共、歷史名人詞庫烫饼、詩詞詞庫、醫(yī)學(xué)詞庫试读、飲食詞庫杠纵、法律詞庫、汽車詞庫钩骇、動(dòng)物詞庫

31. 中文聊天語料 link

該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料

32. 中文謠言數(shù)據(jù): github

該數(shù)據(jù)文件中比藻，每一行為一條json格式的謠言數(shù)據(jù)，字段釋義如下：

rumorCode: 該條謠言的唯一編碼倘屹，可以通過該編碼直接訪問該謠言舉報(bào)頁面韩容。
title: 該條謠言被舉報(bào)的標(biāo)題內(nèi)容
informerName: 舉報(bào)者微博名稱
informerUrl: 舉報(bào)者微博鏈接
rumormongerName: 發(fā)布謠言者的微博名稱
rumormongerUr: 發(fā)布謠言者的微博鏈接
rumorText: 謠言內(nèi)容
visitTimes: 該謠言被訪問次數(shù)
result: 該謠言審查結(jié)果
publishTime: 該謠言被舉報(bào)時(shí)間

33. 情感波動(dòng)分析：github

詞庫已整理到本repo的data文件夾中.

本repo項(xiàng)目是一個(gè)通過與人對話獲得其情感值波動(dòng)圖譜, 內(nèi)用詞庫在data文件夾中.

34. 中文問答數(shù)據(jù)集：鏈接提取碼: 2dva

35. 句子、QA相似度匹配:MatchZoo github

文本相似度匹配算法的集合唐瀑，包含多個(gè)深度學(xué)習(xí)的方法群凶，值得嘗試。

36. bert資源：

bert論文中文翻譯: link

bert原作者的slides: link 提取碼: iarj
文本分類實(shí)踐: github
bert tutorial文本分類教程: github
bert pytorch實(shí)現(xiàn): github
bert用于中文命名實(shí)體識(shí)別 tensorflow版本: github
BERT生成句向量哄辣，BERT做文本分類请梢、文本相似度計(jì)算github
bert 基于 keras 的封裝分類標(biāo)注框架 Kashgari，幾分鐘即可搭建一個(gè)分類或者序列標(biāo)注模型: github
bert力穗、ELMO的圖解： github
BERT: Pre-trained models and downstream applications: github

37. Texar - Toolkit for Text Generation and Beyond: github

基于Tensorflow的開源工具包毅弧，旨在支持廣泛的機(jī)器學(xué)習(xí)，特別是文本生成任務(wù)当窗，如機(jī)器翻譯够坐、對話、摘要、內(nèi)容處置元咙、語言建模等

38. 中文事件抽忍萦啊： github

中文復(fù)合事件抽取，包括條件事件庶香、因果事件甲棍、順承事件、反轉(zhuǎn)事件等事件抽取赶掖，并形成事理圖譜感猛。

39. cocoNLP: github

人名、地址奢赂、郵箱陪白、手機(jī)號(hào)、手機(jī)歸屬地等信息的抽取膳灶，rake短語抽取算法拷泽。

pip install cocoNLP

>>> from cocoNLP.extractor import extractor

>>> ex = extractor()

>>> text = '急尋特朗普，男孩袖瞻，于2018年11月27號(hào)11時(shí)在陜西省安康市漢濱區(qū)走失。丟失發(fā)型短發(fā)拆吆，...如有線索聋迎，請迅速與警方聯(lián)系：18100065143，132-6156-2938枣耀，baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'

# 抽取郵箱
>>> emails = ex.extract_email(text)
>>> print(emails)

['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
# 抽取手機(jī)號(hào)
>>> cellphones = ex.extract_cellphone(text,nation='CHN')
>>> print(cellphones)

['18100065143', '13261562938']
# 抽取手機(jī)歸屬地霉晕、運(yùn)營商
>>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
>>> print(cell_locs)

cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}]
# 抽取地址信息
>>> locations = ex.extract_locations(text)
>>> print(locations)
['陜西省安康市漢濱區(qū)', '安康市漢濱區(qū)', '漢濱區(qū)']
# 抽取時(shí)間點(diǎn)
>>> times = ex.extract_time(text)
>>> print(times)
time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
# 抽取人名
>>> name = ex.extract_name(text)
>>> print(name)
特朗普

40. 國內(nèi)電話號(hào)碼正則匹配（三大運(yùn)營商+虛擬等）: github

41. 清華大學(xué)XLORE:中英文跨語言百科知識(shí)圖譜: link
上述鏈接中包含了所有實(shí)體及關(guān)系的TTL文件，更多數(shù)據(jù)將在近期發(fā)布捞奕。概念牺堰，實(shí)例，屬性和上下位關(guān)系數(shù)目

	百度	中文維基	英文維基	總數(shù)
概念數(shù)量	32,009	150,241	326,518	508,768
實(shí)例數(shù)量	1,629,591	640,622	1,235,178	3,505,391
屬性數(shù)量	157,370	45,190	26,723	229.283
InstanceOf	7,584,931	1,449,925	3,032,515	12,067,371
SubClassOf	2,784	191,577	555,538	749,899

跨語言連接（概念/實(shí)例）

	百度	中文維基	英文維基
百度	-	10,216/336,890	4,846/303,108
中文維基	10,216/336,890	-	28,921/454,579
英文維基	4,846/303,108	28,921/454,579	-

42. 清華大學(xué)人工智能技術(shù)系列報(bào)告： link 每年會(huì)出AI領(lǐng)域相關(guān)的報(bào)告颅围，內(nèi)容包含

自然語言處理 link
知識(shí)圖譜 link
數(shù)據(jù)挖掘 link
自動(dòng)駕駛 link
機(jī)器翻譯 link
區(qū)塊鏈 link
機(jī)器人 link
計(jì)算機(jī)圖形學(xué) link
3D打印 link
人臉識(shí)別 link
人工智能芯片 link
等等

43.自然語言生成方面:

Ehud Reiter教授的博客北大萬小軍教授強(qiáng)力推薦伟葫，該博客對NLG技術(shù)、評價(jià)與應(yīng)用進(jìn)行了深入的探討與反思院促。
文本生成相關(guān)資源大列表
自然語言生成：讓機(jī)器掌握自動(dòng)創(chuàng)作的本領(lǐng) - 開放域?qū)υ捝杉霸谖④浶”械膶?shí)踐
文本生成控制
自然語言生成相關(guān)資源大列表
用BLEURT評價(jià)自然語言生成

44.:
jieba和hanlp就不必介紹了吧筏养。

45.NLP太難了系列: github

來到楊過曾經(jīng)生活過的地方，小龍女動(dòng)情地說：“我也想過過過兒過過的生活常拓〗ト埽”
來到兒子等校車的地方，鄧超對孫儷說：“我也想等等等等等過的那輛車弄抬【シ”
趙敏說：我也想控忌忌己不想無忌。
你也想犯范范范瑋琪犯過的錯(cuò)嗎
對敘打擊是一次性行為？

46.自動(dòng)對聯(lián)數(shù)據(jù)及機(jī)器人:
70萬對聯(lián)數(shù)據(jù) link
代碼 link

上聯(lián)	下聯(lián)
殷勤怕負(fù)三春意	瀟灑難書一字愁
如此清秋何吝酒	這般明月不須錢

47.用戶名黑名單列表： github
包含了用戶名禁用列表拖陆，比如: link

administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1

48.罪名法務(wù)名詞及分類模型: github

包含856項(xiàng)罪名知識(shí)圖譜, 基于280萬罪名訓(xùn)練庫的罪名預(yù)測,基于20W法務(wù)問答對的13類問題分類與法律資訊問答功能

49.微信公眾號(hào)語料: github

3G語料弛槐，包含部分網(wǎng)絡(luò)抓取的微信公眾號(hào)的文章，已經(jīng)去除HTML慕蔚，只包含了純文本丐黄。每行一篇，是JSON格式孔飒，name是微信公眾號(hào)名字灌闺，account是微信公眾號(hào)ID，title是題目坏瞄，content是正文

50.cs224n深度學(xué)習(xí)自然語言處理課程：link

課程中模型的pytorch實(shí)現(xiàn) link
面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程 link

51.中文手寫漢字識(shí)別：github

52.中文自然語言處理語料/數(shù)據(jù)集：github
競品：THUOCL（THU Open Chinese Lexicon）中文詞庫

53.變量命名神器：github link

54.分詞語料庫+代碼：百度網(wǎng)盤鏈接

提取碼: pea6
keras實(shí)現(xiàn)的基于Bi-LSTM + CRF的中文分詞+詞性標(biāo)注
基于Universal Transformer + CRF 的中文分詞和詞性標(biāo)注
快速神經(jīng)網(wǎng)絡(luò)分詞包 java version

55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein： link

56. 任務(wù)型對話英文數(shù)據(jù)集： github 【最全任務(wù)型對話數(shù)據(jù)集】主要介紹了一份任務(wù)型對話數(shù)據(jù)集大全桂对，這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對話領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外鸠匀，為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò)蕉斜，我們以Leaderboard的形式給出了幾個(gè)數(shù)據(jù)集上的State-of-the-art實(shí)驗(yàn)結(jié)果。

57. ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識(shí)別系統(tǒng)： github

Data Sets 數(shù)據(jù)集
- 清華大學(xué)THCHS30中文語音數(shù)據(jù)集
  
  data_thchs30.tgz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像
  
  test-noise.tgz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像
  
  resource.tgz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像
- Free ST Chinese Mandarin Corpus
  
  ST-CMDS-20170001_1-OS.tar.gz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像
- AIShell-1 開源版數(shù)據(jù)集
  
  data_aishell.tgz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像
注：數(shù)據(jù)集解壓方法
```
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz;  do tar xvf $tar; done
```
- Primewords Chinese Corpus Set 1
  
  primewords_md_2018_set1.tar.gz
  OpenSLR國內(nèi)鏡像
   OpenSLR國外鏡像

58. 笑聲檢測器： github

59. Microsoft多語言數(shù)字/單位/如日期時(shí)間識(shí)別包： [github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua 中華新華字典數(shù)據(jù)庫及api缀棍，包括常用歇后語宅此、成語、詞語和漢字 github

61. 文檔圖譜自動(dòng)生成 github

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method爬范。輸入一篇文檔父腕，將文檔進(jìn)行關(guān)鍵信息提取，進(jìn)行結(jié)構(gòu)化青瀑，并最終組織成圖譜組織形式璧亮，形成對文章語義信息的圖譜化展示

62. SpaCy 中文模型 github

包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的斥难，如果要適配中文枝嘶，可能需要使用spacy中文模型。

63. Common Voice語音識(shí)別數(shù)據(jù)集新版 link

包括來自42,000名貢獻(xiàn)者超過1,400小時(shí)的語音樣本哑诊，涵github

64. 神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 pytorch github

暫不支持中文

65. 基于bert的命名實(shí)體識(shí)別 pytorch github

暫不支持中文

66. 關(guān)鍵詞(Keyphrase)抽取包 pke github
pke: an open source python-based keyphrase extraction toolkit

暫不支持中文群扶，我于近期對其進(jìn)行修改，使其適配中文镀裤。請關(guān)注我的github動(dòng)態(tài)穷当，謝謝！

67. 基于醫(yī)療領(lǐng)域知識(shí)圖譜的問答系統(tǒng) github

該repo參考了github

68. 基于依存句法與語義角色標(biāo)注的事件三元組抽取 github

69. 依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù) by 蘇州大學(xué)漢語依存樹庫（SUCDT）
Homepage 數(shù)據(jù)下載詳見homepage底部淹禾，需要簽署協(xié)議馁菜，需要郵件接收解壓密碼。

70. cnocr：用來做中文OCR的Python3包铃岔，自帶了訓(xùn)練好的識(shí)別模型 github

71. 中文人物關(guān)系知識(shí)圖譜項(xiàng)目 github

中文人物關(guān)系圖譜構(gòu)建
基于知識(shí)庫的數(shù)據(jù)回標(biāo)
基于遠(yuǎn)程監(jiān)督與bootstrapping方法的人物關(guān)系抽取
基于知識(shí)圖譜的知識(shí)問答等應(yīng)用

72. 中文nlp競賽項(xiàng)目及代碼匯總 github

文本生成汪疮、文本摘要：Byte Cup 2018 國際機(jī)器學(xué)習(xí)競賽
知識(shí)圖譜：瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識(shí)圖譜大賽
視頻識(shí)別問答：2018之江杯全球人工智能大賽：視頻識(shí)別&問答

73. 中文字符數(shù)據(jù) github

簡/繁體漢字筆順
矢量筆畫

74. speech-aligner: 從“人聲語音”及其“語言文本”峭火，產(chǎn)生音素級(jí)別時(shí)間對齊標(biāo)注的工具 github

75. AmpliGraph: 知識(shí)圖譜表示學(xué)習(xí)(Python)庫：知識(shí)圖譜概念鏈接預(yù)測 github

埃森哲出品，目前尚不支持中文

76. Scattertext 文本可視化(python) github

很好用的工具包智嚷，簡單修改后可支持中文
能否分析出某個(gè)類別的文本與其他文本的用詞差異

77. 語言/知識(shí)表示工具：BERT & ERNIE github

百度出品卖丸，ERNIE也號(hào)稱在多項(xiàng)nlp任務(wù)中擊敗了bert

78. 中文對比英文自然語言處理NLP的區(qū)別綜述 link

79. Synonyms中文近義詞工具包 github

Synonyms 中文近義詞工具包，可以用于自然語言理解的很多任務(wù)：文本對齊盏道，推薦算法稍浆，相似度計(jì)算，語義偏移猜嘱，關(guān)鍵字提取忽匈，概念提取预侯，自動(dòng)摘要附鸽，搜索引擎等

80. HarvestText領(lǐng)域自適應(yīng)文本挖掘工具（新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等） github

81. word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個(gè)多語言對 github

82. 語音識(shí)別語料生成工具：從具有音頻/字幕的在線視頻創(chuàng)建自動(dòng)語音識(shí)別(ASR)語料庫 github

83. ASR語音大辭典/詞典： github

84. 構(gòu)建醫(yī)療實(shí)體識(shí)別的模型昨稼，包含詞典和語料標(biāo)注，基于python: github

85. 單文檔非監(jiān)督的關(guān)鍵詞抽嚷劢浴： github

86. Kashgari中使用gpt-2語言模型 github

87. 開源的金融投資數(shù)據(jù)提取工具 github

88. 文本自動(dòng)摘要庫TextTeaser: 僅支持英文 github

89. 人民日報(bào)語料處理工具集 github

90. 一些關(guān)于自然語言的基本模型 github

91. 基于14W歌曲知識(shí)庫的問答嘗試益楼，功能包括歌詞接龍，已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答 github

92. 基于Siamese bilstm模型的相似句子判定模型,提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集 github

提供了10萬個(gè)訓(xùn)練樣本

93. 用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動(dòng)生成評論 github

94. 用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼 github

95. LitBank：NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料 github

96. 百度開源的基準(zhǔn)信息抽取系統(tǒng) github

97. 虛假新聞數(shù)據(jù)集 fake news corpus github

98. Facebook: LAMA語言模型分析点晴，提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口 github

用于分析預(yù)訓(xùn)練語言模型中包含的事實(shí)和常識(shí)知識(shí)的探針感凤。

99. CommonsenseQA：面向常識(shí)的英文QA挑戰(zhàn) link

100. 中文知識(shí)圖譜資料、數(shù)據(jù)及工具 github

101. 各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT github

102. 自然語言生成SQL語句（英文） github

103. 中文NLP數(shù)據(jù)增強(qiáng)（EDA）工具 github

英文NLP數(shù)據(jù)增強(qiáng)工具 github
一鍵中文數(shù)據(jù)增強(qiáng)工具 github

104. 基于醫(yī)藥知識(shí)圖譜的智能問答系統(tǒng) github

105. 京東商品知識(shí)圖譜 github

基于京東網(wǎng)站的1300種商品上下級(jí)概念粒督，約10萬商品品牌陪竿，約65萬品牌銷售關(guān)系，商品描述維度等知識(shí)庫坠陈，基于該知識(shí)庫可以支持商品屬性庫構(gòu)建，商品銷售問答捐康，品牌物品生產(chǎn)等知識(shí)查詢服務(wù)仇矾，也可用于情感分析等下游應(yīng)用．

106. 基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目 github

基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目，包括飛行器解总、太空裝備等8大類贮匕，100余小類，共計(jì)5800項(xiàng)的軍事武器知識(shí)庫花枫，該項(xiàng)目不使用圖數(shù)據(jù)庫進(jìn)行存儲(chǔ)刻盐，通過jieba進(jìn)行問句解析，問句實(shí)體項(xiàng)識(shí)別劳翰，基于查詢模板完成多類問題的查詢敦锌，主要是提供一種工業(yè)界的問答思想demo。

107. 基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取 github

108. 語音情感分析 github

109. 中文ULMFiT 情感分析文本分類語料及模型 github

110. 一個(gè)拍照做題程序佳簸。輸入一張包含數(shù)學(xué)計(jì)算題的圖片乙墙，輸出識(shí)別出的數(shù)學(xué)計(jì)算式以及計(jì)算結(jié)果 github

111. 世界各國大規(guī)模人名庫 github

112. 一個(gè)利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人 github

使用了青云語料10萬語料，本repo中也有該語料的鏈接

113. 中文聊天機(jī)器人，根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人听想，可以用于智能客服腥刹、在線問答、智能聊天等場景 github

根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人汉买，可以用于智能客服衔峰、在線問答、智能聊天等場景蛙粘。加入seqGAN版本垫卤。
repo中提供了一份質(zhì)量不太高的語料

114. 省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注 github

國家統(tǒng)計(jì)局中的省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注，高德地圖的坐標(biāo)和行政區(qū)域邊界范圍组题，在瀏覽器里面運(yùn)行js代碼采集的2019年發(fā)布的最新數(shù)據(jù)葫男，含采集源碼，提供csv格式數(shù)據(jù)崔列，支持csv轉(zhuǎn)成省市區(qū)多級(jí)聯(lián)動(dòng)js代碼
坐標(biāo)梢褐、邊界范圍、名稱赵讯、拼音盈咳、行政區(qū)等多級(jí)地址

115. 教育行業(yè)新聞自動(dòng)文摘語料庫 github

116. 開放了對話機(jī)器人、知識(shí)圖譜边翼、語義理解鱼响、自然語言處理工具及數(shù)據(jù) github

另一個(gè)qa對的機(jī)器人 Amodel-for-Retrivalchatbot - 客服機(jī)器人，Chinese Retreival chatbot（中文檢索式機(jī)器人）

117. 中文知識(shí)圖譜：基于百度百科中文頁面组底，抽取三元組信息丈积，構(gòu)建中文知識(shí)圖譜 github

118. masr: 中文語音識(shí)別，提供預(yù)訓(xùn)練模型债鸡，高識(shí)別率 github

119. Python音頻數(shù)據(jù)增廣庫 github

120. 中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù) github

DRCD數(shù)據(jù)集由中國臺(tái)灣臺(tái)達(dá)研究院發(fā)布江滨，其形式與SQuAD相同，是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集厌均。
CMRC 2018數(shù)據(jù)集是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)唬滑。根據(jù)給定問題，系統(tǒng)需要從篇章中抽取出片段作為答案棺弊，形式與SQuAD相同晶密。

121. ConvLab：開源多域端到端對話系統(tǒng)平臺(tái) github

122. 中文自然語言處理數(shù)據(jù)集 github

123. 基于最新版本rasa搭建的對話系統(tǒng) github

124. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取 github

Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取，2019語言與智能技術(shù)競賽信息抽取任務(wù)解決方案模她。Schema based Knowledge Extraction, SKE 2019

125. 一個(gè)小型的證券知識(shí)圖譜/知識(shí)庫 github

126. 復(fù)盤所有NLP比賽的TOP方案 github

127. OpenCLaP：多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫 github 包含如下語言模型及百度百科數(shù)據(jù)

民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB

128. UER：基于不同語料稻艰、編碼器、目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫（包括BERT侈净、GPT连锯、ELMO等） github

基于PyTorch的預(yù)訓(xùn)練模型框架归苍，支持對編碼器，目標(biāo)任務(wù)等進(jìn)行任意的組合运怖，從而復(fù)現(xiàn)已有的預(yù)訓(xùn)練模型拼弃，或在已有的預(yù)訓(xùn)練模型上進(jìn)一步改進(jìn)∫≌梗基于UER訓(xùn)練了不同性質(zhì)的預(yù)訓(xùn)練模型（不同語料吻氧、編碼器、目標(biāo)任務(wù)）咏连，構(gòu)成了中文預(yù)訓(xùn)練模型倉庫盯孙，適用于不同的場景。

129. 中文自然語言處理向量合集 github

包括字向量,拼音向量,詞向量,詞性向量,依存關(guān)系向量.共5種類型的向量

130. 基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人 github

其中的主要模塊有信息抽取祟滴、NLU振惰、NLG、知識(shí)圖譜等垄懂，并且利用Django整合了前端展示,目前已經(jīng)封裝了nlp和kg的restful接口

131. g2pC：基于上下文的漢語讀音自動(dòng)標(biāo)記模塊 github

132. Zincbase 知識(shí)圖譜構(gòu)建工具包 github

133. 詩歌質(zhì)量評價(jià)/細(xì)粒度情感詩歌語料庫 github

134. 快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」 github

中文骑晶、阿拉伯?dāng)?shù)字互轉(zhuǎn)
中文與阿拉伯?dāng)?shù)字混合的情況，在開發(fā)中

135. 百度知道問答語料庫 github

超過580萬的問題草慧，938萬的答案桶蛔，5800個(gè)分類標(biāo)簽÷龋基于該問答語料庫仔雷，可支持多種應(yīng)用，如閑聊問答舔示，邏輯挖掘

136. 基于知識(shí)圖譜的問答系統(tǒng) github

BERT做命名實(shí)體識(shí)別和句子相似度碟婆，分為online和outline模式

137. jieba_fast 加速版的jieba github

使用cpython重寫了jieba分詞庫中計(jì)算DAG和HMM中的vitrebi函數(shù)，速度得到大幅提升

138. 正則表達(dá)式教程 github

139. 中文閱讀理解數(shù)據(jù)集 github

140. 基于BERT等最新語言模型的抽取式摘要提取 github

141. Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南 link

142. 知識(shí)圖譜深度學(xué)習(xí)相關(guān)資料整理 github

深度學(xué)習(xí)與自然語言處理惕稻、知識(shí)圖譜竖共、對話系統(tǒng)。包括知識(shí)獲取缩宜、知識(shí)庫構(gòu)建肘迎、知識(shí)庫應(yīng)用三大技術(shù)研究與應(yīng)用

143. 維基大規(guī)模平行文本語料 github

85種語言甥温、1620種語言對锻煌、135M對照句

144. StanfordNLP 0.2.0：純Python版自然語言處理包 link

145. NeuralNLP-NeuralClassifier：騰訊開源深度學(xué)習(xí)文本分類工具 github

146. 端到端的封閉域?qū)υ捪到y(tǒng) github

147. 中文命名實(shí)體識(shí)別：NeuroNER vs. BertNER github

148. 新聞事件線索抽取 github

An exploration for Eventline (important news Rank organized by pulic time)，針對某一事件話題下的新聞報(bào)道集合姻蚓，通過使用docrank算法宋梧，對新聞報(bào)道進(jìn)行重要性識(shí)別，并通過新聞報(bào)道時(shí)間挑選出時(shí)間線上重要新聞

149. 2019年百度的三元組抽取比賽狰挡，“科學(xué)空間隊(duì)”源碼(第7名) github

150. 基于依存句法的開放域文本知識(shí)三元組抽取和知識(shí)庫構(gòu)建 github

151. 中文的GPT2訓(xùn)練代碼 github

152. ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)捂龄、NLP面試中呈吞危考到的知識(shí)點(diǎn)和代碼實(shí)現(xiàn) github

153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查 github

154. XLM：Facebook的跨語言預(yù)訓(xùn)練語言模型 github

155. 用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識(shí)圖譜百度百科人物詞條屬性抽取 github

156. 中文自然語言處理相關(guān)的開放任務(wù)，數(shù)據(jù)集, 以及當(dāng)前最佳結(jié)果 github

157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動(dòng)對對聯(lián)系統(tǒng) github

158. 抽象知識(shí)圖譜倦沧，目前規(guī)模50萬唇撬，支持名詞性實(shí)體、狀態(tài)性描述展融、事件性動(dòng)作進(jìn)行抽象 github

159. MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目 github

160. brat rapid annotation tool: 序列標(biāo)注工具 link

161. 大規(guī)模中文知識(shí)圖譜數(shù)據(jù)：：1.4億實(shí)體 github

162. 數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果 link

163. allennlp閱讀理解:支持多種數(shù)據(jù)和模型 github

164. PDF表格數(shù)據(jù)提取工具 github

165. Graphbrain：AI開源軟件庫和科研工具窖认，目的是促進(jìn)自動(dòng)意義提取和文本理解以及知識(shí)的探索和推斷 github

166. 簡歷自動(dòng)篩選系統(tǒng) github

167. 基于命名實(shí)體識(shí)別的簡歷自動(dòng)摘要 github

168. 中文語言理解測評基準(zhǔn)，包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜 github

169. 樹洞 OCR 文字識(shí)別 github

一個(gè)c++ OCR github

170. 從包含表格的掃描圖片中識(shí)別表格和文字 github

171. 語聲遷移 github

172. Python口語自然語言處理工具集(英文) github

173. similarity：相似度計(jì)算工具包告希，java編寫 github

用于詞語扑浸、短語、句子燕偶、詞法分析喝噪、情感分析、語義分析等相關(guān)的相似度計(jì)算

174. 海量中文預(yù)訓(xùn)練ALBERT模型 github

175. Transformers 2.0 github

支持TensorFlow 2.0 和 PyTorch 的自然語言處理預(yù)訓(xùn)練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構(gòu)/33種預(yù)訓(xùn)練模型/102種語言

176. 基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng) github

177. Poplar：網(wǎng)頁版自然語言標(biāo)注工具 github

178. 圖片文字去除指么，可用于漫畫翻譯 github

179. 186種語言的數(shù)字叫法庫 github

180. Amazon發(fā)布基于知識(shí)的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集 github

181. 中文文本糾錯(cuò)模塊代碼 github

182. 繁簡體轉(zhuǎn)換 github

183. Python實(shí)現(xiàn)的多種文本可讀性評價(jià)指標(biāo) github

184. 類似于人名/地名/組織機(jī)構(gòu)名的命名體識(shí)別數(shù)據(jù)集 github

185. 東南大學(xué)《知識(shí)圖譜》研究生課程(資料) github

186. 英文拼寫檢查庫 github

from spellchecker import SpellChecker

spell = SpellChecker()

# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

187. wwsearch是企業(yè)微信后臺(tái)自研的全文檢索引擎 github

188. CHAMELEON：深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu) github

189. 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思 github

190. DocSearch：免費(fèi)文檔搜索引擎 github

191. LIDA：輕量交互式對話標(biāo)注工具 github

192. aili - the fastest in-memory index in the East 東半球最快并發(fā)索引 github

193. 知識(shí)圖譜車音工作項(xiàng)目 github

194. 自然語言生成資源大全 github

內(nèi)含英文數(shù)據(jù)酝惧、論文、代碼

195. 中日韓分詞庫mecab的Python接口庫 github

196. 中文文本摘要/關(guān)鍵詞提取 github

197. 漢字字符特征提取器 (featurizer)涧尿，提取漢字的特征（發(fā)音特征系奉、字形特征）用做深度學(xué)習(xí)的特征 github

198. 中文生成任務(wù)基準(zhǔn)測評 github

199. 中文縮寫數(shù)據(jù)集 github

200. 中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜 github

201. PySS3：面向可解釋AI的SS3文本分類器機(jī)器可視化工具 github

202. 中文NLP數(shù)據(jù)集列表 github

203. COPE - 格律詩編輯程序 github

204. doccano：基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具 github

205. PreNLP：自然語言預(yù)處理庫 github

206. 簡單的簡歷解析器，用來從簡歷中提取關(guān)鍵信息 github

207. 用于中文閑聊的GPT2模型：GPT2-chitchat github

208. 基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards姑廉、Datasets缺亮、Papers) github

209. (Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程 github

210. 詞語拼音數(shù)據(jù) github

211. 高效模糊搜索工具 github

212. NLP數(shù)據(jù)增廣資源集 github

213. 微軟對話機(jī)器人框架 github

214. GitHub Typo Corpus：大規(guī)模GitHub多語言拼寫錯(cuò)誤/語法錯(cuò)誤數(shù)據(jù)集 github

215. TextCluster：短文本聚類預(yù)處理模塊 Short text cluster github

216. 面向語音識(shí)別的中文文本規(guī)范化 github

217. BLINK：最先進(jìn)的實(shí)體鏈接庫 github

218. BertPunc：基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型 github

219. Tokenizer：快速、可定制的文本詞條化庫 github

220. 中文語言理解測評基準(zhǔn)桥言，包括代表性的數(shù)據(jù)集萌踱、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫号阿、排行榜 github

221. spaCy 醫(yī)學(xué)文本挖掘與信息提取 github

222. NLP任務(wù)示例項(xiàng)目代碼集 github

223. python拼寫檢查庫 github

224. chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服并鸵、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹 github

225. 語音質(zhì)量評價(jià)指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR) github

226. 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型 link

227. BERT-NER-Pytorch：三種不同模式的BERT中文NER實(shí)驗(yàn) github

228. 無道詞典 - 有道詞典的命令行版本扔涧，支持英漢互查和在線查詢 github

229. 2019年NLP亮點(diǎn)回顧 download

提取碼: yb6x

230. Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集 github

231. 最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具 github

232. 基于百科知識(shí)庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧 github

233. awesome-nlp-sentiment-analysis - 情感分析园担、情緒原因識(shí)別、評價(jià)對象和評價(jià)詞抽取 github

234. LineFlow：面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器 github

235. 中文醫(yī)學(xué)NLP公開資源整理 github

236. MedQuAD：(英文)醫(yī)學(xué)問答數(shù)據(jù)集 github

237. 將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù) github

238. Transfer Learning in Natural Language Processing (NLP) youtube

239. 面向語音識(shí)別的中文/英文發(fā)音辭典 github

240. Tokenizers：注重性能與多功能性的最先進(jìn)分詞器 github

241. CLUENER 細(xì)粒度命名實(shí)體識(shí)別 Fine Grained Named Entity Recognition github

242. 基于BERT的中文命名實(shí)體識(shí)別 github

243. 中文謠言數(shù)據(jù)庫 github

244. NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表 github

大多數(shù)為英文數(shù)據(jù)

245. nlp相關(guān)的一些論文及代碼, 包括主題模型枯夜、詞向量(Word Embedding)弯汰、命名實(shí)體識(shí)別(NER)、文本分類(Text Classificatin)湖雹、文本生成(Text Generation)咏闪、文本相似性(Text Similarity)計(jì)算等，涉及到各種與nlp相關(guān)的算法摔吏，基于keras和tensorflow github

246. Python文本挖掘/NLP實(shí)戰(zhàn)示例 github

247. Blackstone：面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型 github

248. 通過同義詞替換實(shí)現(xiàn)文本“變臉” github

249. 中文預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model github

250. albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER github

251. 基于GPT2的特定主題文本生成/文本增廣 github

252. 開源預(yù)訓(xùn)練語言模型合集 github

253. 多語言句向量包 github

254. 編碼鸽嫂、標(biāo)記和實(shí)現(xiàn)：一種可控高效的文本生成方法 github

255. 英文臟話大列表 github

256. attnvis：GPT2纵装、BERT等transformer語言模型注意力交互可視化 github

257. CoVoST：Facebook發(fā)布的多語種語音-文本翻譯語料庫，包括11種語言(法語据某、德語橡娄、荷蘭語、俄語癣籽、西班牙語瀑踢、意大利語、土耳其語才避、波斯語橱夭、瑞典語、蒙古語和中文)的語音桑逝、文字轉(zhuǎn)錄及英文譯文 github

258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ)棘劣，提供知識(shí)圖譜關(guān)系抽取中文分詞詞性標(biāo)注命名實(shí)體識(shí)別情感分析新詞發(fā)現(xiàn) 關(guān)鍵詞文本摘要文本聚類等功能 github

259. 用unet實(shí)現(xiàn)對文檔表格的自動(dòng)檢測，表格重建 github

260. NLP事件提取文獻(xiàn)資源列表 github

261. 金融領(lǐng)域自然語言處理研究資源大列表 github

262. CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集：搜索所有中文NLP數(shù)據(jù)集楞遏，附常用英文NLP數(shù)據(jù)集 github

263. medical_NER - 中文醫(yī)學(xué)知識(shí)圖譜命名實(shí)體識(shí)別 github

264. (哈佛)講因果推理的免費(fèi)書 pdf

265. 知識(shí)圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表 github

266. Forte：靈活強(qiáng)大的自然語言處理pipeline工具集 github

267. Python字符串相似性算法庫 github

268. PyLaia：面向手寫文檔分析的深度學(xué)習(xí)工具包 github

269. TextFooler：針對文本分類/推理的對抗文本生成模塊 github

270. Haystack：靈活茬暇、強(qiáng)大的可擴(kuò)展問答(QA)框架 github

271. 中文關(guān)鍵短語抽取工具 github

272. pdf文檔解析相關(guān)工具包

pdf生成
- fdfgen: 能夠自動(dòng)創(chuàng)建pdf文檔，并填寫信息
pdf表格解析
- pdftabextract: 用于OCR識(shí)別后的表格信息解析寡喝，很強(qiáng)大
- tabula-py: 直接將pdf中的表格信息轉(zhuǎn)換為pandas的dataframe糙俗，有java和python兩種版本代碼
- pdfx: 自動(dòng)抽取出引用參考文獻(xiàn)，并下載對應(yīng)的pdf文件
- invoice2data: 發(fā)票pdf信息抽取
- camelot: pdf表格解析
- pdfplumber: pdf表格解析
- pdf文檔信息抽取
pdf語義分割
- PubLayNet:能夠劃分段落预鬓、識(shí)別表格巧骚、圖片
pdf讀取工具
- PDFMiner：PDFMiner能獲取頁面中文本的準(zhǔn)確位置，以及字體或行等其他信息格二。它還有一個(gè)PDF轉(zhuǎn)換器劈彪，可以將PDF文件轉(zhuǎn)換成其他文本格式(如HTML)。還有一個(gè)可擴(kuò)展的解析器PDF顶猜，可以用于文本分析以外的其他用途沧奴。
- PyPDF2：PyPDF 2是一個(gè)python PDF庫，能夠分割长窄、合并滔吠、裁剪和轉(zhuǎn)換PDF文件的頁面。它還可以向PDF文件中添加自定義數(shù)據(jù)挠日、查看選項(xiàng)和密碼疮绷。它可以從PDF檢索文本和元數(shù)據(jù)，還可以將整個(gè)文件合并在一起肆资。
- ReportLab：ReportLab能快速創(chuàng)建PDF 文檔矗愧。經(jīng)過時(shí)間證明的灶芝、超好用的開源項(xiàng)目郑原，用于創(chuàng)建復(fù)雜的唉韭、數(shù)據(jù)驅(qū)動(dòng)的PDF文檔和自定義矢量圖形。它是免費(fèi)的犯犁，開源的属愤，用Python編寫的。該軟件包每月下載5萬多次酸役，是標(biāo)準(zhǔn)Linux發(fā)行版的一部分住诸，嵌入到許多產(chǎn)品中，并被選中為Wikipedia的打印/導(dǎo)出功能提供動(dòng)力涣澡。

273. 中文詞語相似度計(jì)算方法 gihtub

綜合了同義詞詞林?jǐn)U展版與知網(wǎng)（Hownet）的詞語相似度計(jì)算方法贱呐，詞匯覆蓋更多、結(jié)果更準(zhǔn)確入桂。

274. 人民日報(bào)語料庫處理工具集 github

275. stanza:斯坦福團(tuán)隊(duì)NLP工具 github

可處理六十多種語言

276. 一個(gè)大規(guī)模醫(yī)療對話數(shù)據(jù)集 github

包含110萬醫(yī)學(xué)咨詢奄薇，400萬條醫(yī)患對話

277. 新冠肺炎相關(guān)數(shù)據(jù)

新冠及其他類型肺炎中文醫(yī)療對話數(shù)據(jù)集 github
清華大學(xué)等機(jī)構(gòu)的開放數(shù)據(jù)源（COVID-19）github

278. DGL-KE 圖嵌入表示學(xué)習(xí)算法 github

279. nlp-recipes：微軟出品–自然語言處理最佳實(shí)踐和范例 github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個(gè)快速從自然語言文本中提取和識(shí)別關(guān)鍵短語的工具 github

281. 使用GAN生成表格數(shù)據(jù)（僅支持英文） github

282. Google發(fā)布Taskmaster-2自然語言任務(wù)對話數(shù)據(jù)集 github

283. BDCI2019金融負(fù)面信息判定 github

284. 用神經(jīng)網(wǎng)絡(luò)符號(hào)推理求解復(fù)雜數(shù)學(xué)方程 github

285. 粵語/英語會(huì)話雙語語料庫 github

286. 中文ELECTRA預(yù)訓(xùn)練模型 github

287. 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程 github

288. Parakeet：基于PaddlePaddle的文本-語音合成 github

289. 103976個(gè)英語單詞庫（sql版，csv版抗愁，Excel版）包 github

290. 《海賊王》知識(shí)圖譜 github

291. 法務(wù)智能文獻(xiàn)資源列表 github

292. Datasaur.ai 在線數(shù)據(jù)標(biāo)注工作流管理工具 link

293. (Java)準(zhǔn)確的語音自然語言檢測庫 github

294. 面向各語種/任務(wù)的BERT模型大列表/搜索引擎 link

295. CoVoST：Facebook發(fā)布的多語種語音-文本翻譯語料庫 github

296. 基于預(yù)訓(xùn)練模型的中文關(guān)鍵詞抽取方法 github

297. Fancy-NLP:用于建設(shè)商品畫像的文本知識(shí)挖掘工具 github

298. 基于百度webqa與dureader數(shù)據(jù)集訓(xùn)練的Albert Large QA模型 github

299. BERT/CRF實(shí)現(xiàn)的命名實(shí)體識(shí)別 github

300. ssc, Sound Shape Code, 音形碼 - 基于“音形碼”的中文字符串相似度計(jì)算方法

version 1
version 2
blog/introduction

301. 中文指代消解數(shù)據(jù) github

baidu ink code: a0qq

302. 全面簡便的中文 NLP 工具包 github

303. 中文地址分詞（地址元素識(shí)別與抽饶俚佟），通過序列標(biāo)注進(jìn)行NER github

304. 用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)預(yù)測下一個(gè)詞(模型比較) github

305. 文本機(jī)器學(xué)習(xí)模型最先進(jìn)解釋器庫 github

306. 多文檔摘要數(shù)據(jù)集 github

307. 用記事本渲染3D圖像 github

308. char_featurizer - 漢字字符特征提取工具 github

309. SimBERT - 基于UniLM思想蜘腌、融檢索與生成于一體的BERT模型 github

310. Python音頻特征提取包 github

311. TensorFlow 2 實(shí)現(xiàn)的文本語音合成 github

312. 情感分析技術(shù)：讓智能客服更懂人類情感 github

313. TensorFlow Hub最新發(fā)布40+種語言的新語言模型(包括中文) link

314. 漢字字符特征提取器 (featurizer)沫屡，提取漢字的特征（發(fā)音特征、字形特征）用做深度學(xué)習(xí)的特征 github

315. 工業(yè)界常用基于DSSM向量化召回pipeline復(fù)現(xiàn) github

316. 不存在的詞：用GPT-2變體從頭生成新詞及其定義撮珠、例句 github

317. TextAttack：自然語言處理模型對抗性攻擊框架 github

318. 仇恨言論檢測進(jìn)展 link

319. OPUS-100：以英文為中心的多語(100種)平行語料 github

320. 從論文中提取表格數(shù)據(jù) github

321. 讓人人都變得“彬彬有禮”：禮貌遷移任務(wù)——在保留意義的同時(shí)將非禮貌語句轉(zhuǎn)換為禮貌語句沮脖，提供包含1.39M + 實(shí)例的數(shù)據(jù)集 paper and code

322. 用BERT在表格中尋找答案 github

323. PyTorch實(shí)現(xiàn)的BERT事件抽取(ACE 2005 corpus) github

324. 表格問答的系列文章

簡介
模型
完結(jié)篇

325. LibKGE：面向可復(fù)現(xiàn)研究的知識(shí)圖譜嵌入庫 github

326. comparxiv :用于比較arXiv上兩提交版本差異的命令 pypi

327. ViSQOL：音頻質(zhì)量感知客觀、完整參考指標(biāo)芯急，分音頻倘潜、語音兩種模式 github

328. 方面情感分析包 github

329. dstlr：非結(jié)構(gòu)化文本可擴(kuò)展知識(shí)圖譜構(gòu)建平臺(tái) github

330. 由文本自動(dòng)生成多項(xiàng)選擇題 github

331. 大規(guī)模跨領(lǐng)域中文任務(wù)導(dǎo)向多輪對話數(shù)據(jù)集及模型CrossWOZ paper & data

332. whatlies：詞向量交互可視化 spacy 工具

333. 支持批并行的LatticeLSTM中文命名實(shí)體識(shí)別 github

334. 基于Albert志于、Electra涮因，用維基百科文本作為上下文的問答引擎 github

335. Deepmatch：針對推薦、廣告和搜索的深度匹配模型庫 github

336. 語音工具合集

zhrtvc 好用的中文語音克隆兼中文語音合成系統(tǒng) github
aukit 好用的語音處理工具箱伺绽，包含語音降噪养泡、音頻格式轉(zhuǎn)換、特征頻譜生成等模塊 github
phkit 好用的音素處理工具箱奈应，包含中文音素澜掩、英文音素、文本轉(zhuǎn)拼音杖挣、文本正則化等模塊 github
zhvoice 中文語音語料肩榕，語音更加清晰自然，包含8個(gè)開源數(shù)據(jù)集惩妇，3200個(gè)說話人株汉，900小時(shí)語音筐乳，1300萬字 github

337. 多音字詞典數(shù)據(jù)及代碼 github

338. audio：面向語音行為檢測、二值化乔妈、說話人識(shí)別蝙云、自動(dòng)語音識(shí)別、情感識(shí)別等任務(wù)的音頻標(biāo)注工具 github

339. 大規(guī)模路召、結(jié)構(gòu)化勃刨、中英文雙語的新冠知識(shí)圖譜(COKG-19) link

COKG-19包含了505個(gè)概念、393個(gè)屬性股淡、26282個(gè)實(shí)例和32352個(gè)知識(shí)三元組身隐，覆蓋了醫(yī)療、健康唯灵、物資抡医、防控、科研和人物等

340. 132個(gè)知識(shí)圖譜的數(shù)據(jù)集 link

涵蓋常識(shí)早敬、城市忌傻、金融、農(nóng)業(yè)搞监、地理水孩、氣象、社交琐驴、物聯(lián)網(wǎng)俘种、醫(yī)療、娛樂绝淡、生活宙刘、商業(yè)、出行牢酵、科教

341. 42GB的JD客服對話數(shù)據(jù)(CSDD) github

12億句子訓(xùn)練得到的word embedding

342. 合成數(shù)據(jù)生成基準(zhǔn) github

343. 漢字悬包、詞語、成語查詢接口 github

344. 中文問題句子相似度計(jì)算比賽及方案匯總 github

345. Texthero：文本數(shù)據(jù)高效處理包馍乙，包括預(yù)處理布近、關(guān)鍵詞提取、命名實(shí)體識(shí)別丝格、向量空間分析撑瞧、文本可視化等 github

346. SIMPdf：Python寫的簡單PDF文件文字編輯器 github

347. 《配色辭典》數(shù)據(jù)集 github

348. carefree-learn：(PyTorch)表格數(shù)據(jù)集自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)包 github

349. token2index：與PyTorch/Tensorflow兼容的強(qiáng)大輕量詞條索引庫 github

350. 開源對話式信息搜索平臺(tái) github

351. 對聯(lián)數(shù)據(jù) github

700,000 couplets, 超過70萬對對聯(lián)
百度云盤：鏈接密碼:egpt

352. 基于Pytorch的Bert應(yīng)用，包括命名實(shí)體識(shí)別显蝌、情感分析预伺、文本分類以及文本相似度等 github

353. TaBERT：理解表格數(shù)據(jù)查詢的新模型 paper

354. Dakshina數(shù)據(jù)集：十二種南亞語言的拉丁/本地文字平行數(shù)據(jù)集合 github

355. NLP標(biāo)注平臺(tái)綜述 github

356. 封閉域微調(diào)表格檢測 github

357. 深度學(xué)習(xí)情感文本語音合成 github

358. 中文寫作校對工具 github

359. 用Quora問題對訓(xùn)練的T5問題意譯(Paraphrase) github

360. 情境互動(dòng)多模態(tài)對話挑戰(zhàn)2020(DSTC9 2020) github

361. nlpgnn：圖神經(jīng)網(wǎng)絡(luò)自然語言處理工具箱 github

362. Macadam：以Tensorflow(Keras)和bert4keras為基礎(chǔ)，專注于文本分類、序列標(biāo)注和關(guān)系抽取的自然語言處理工具包 github

363. 用新版nlp庫加載17GB+英文維基語料只占用9MB內(nèi)存遍歷速度2-3 Gbit/s github

本文使用文章同步助手同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末酬诀，一起剝皮案震驚了整個(gè)濱河市脏嚷，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌料滥，老刑警劉巖，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件艾船，死亡現(xiàn)場離奇詭異葵腹，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)屿岂，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門践宴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人爷怀，你說我怎么就攤上這事阻肩。” “怎么了运授？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵烤惊，是天一觀的道長。經(jīng)常有香客問我吁朦，道長柒室，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任逗宜，我火速辦了婚禮雄右，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘纺讲。我一直安慰自己擂仍，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布熬甚。她就那樣靜靜地躺著祟身，像睡著了一般。火紅的嫁衣襯著肌膚如雪柄延。梳的紋絲不亂的頭發(fā)上杨刨，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音粟判，去河邊找鬼亿昏。笑死，一個(gè)胖子當(dāng)著我的面吹牛档礁，可吹牛的內(nèi)容都是我干的角钩。我是一名探鬼主播，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼递礼！你這毒婦竟也來了惨险？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤脊髓，失蹤者是張志新（化名）和其女友劉穎辫愉，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體将硝，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡恭朗，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了依疼。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痰腮。...
茶點(diǎn)故事閱讀 38,137評論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖律罢，靈堂內(nèi)的尸體忽然破棺而出膀值，到底是詐尸還是另有隱情，我是刑警寧澤误辑，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布沧踏，位于F島的核電站，受9級(jí)特大地震影響巾钉，放射性物質(zhì)發(fā)生泄漏悦冀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一睛琳、第九天我趴在偏房一處隱蔽的房頂上張望盒蟆。院中可真熱鬧，春花似錦师骗、人聲如沸历等。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案辟癌，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽寒屯。三九已至，卻和暖如春黍少，著一層夾襖步出監(jiān)牢的瞬間寡夹，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工厂置，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留菩掏，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓昵济，卻偏偏與公主長得像智绸，于是被迫代替她去往敵國和親野揪。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評論 2贊 345

NLP自然語言處理資料匯總

NLP民工的樂園

NLP民工的樂園: 幾乎最全的中文NLP資源庫

推薦閱讀更多精彩內(nèi)容