NLP民工的樂園
[toc]
NLP民工的樂園: 幾乎最全的中文NLP資源庫
-
https://github.com/fighting41love/funNLP
-
詞庫
-
工具包
-
學(xué)習(xí)資料
在入門到熟悉NLP的過程中宾濒,用到了很多github上的包楷掉,遂整理了一下,分享在這里掂骏。
1. textfilter: 中英文敏感詞過濾 observerss/textfilter
>>> f = DFAFilter()
>>> f.add("sexy")
>>> f.filter("hello sexy baby")
hello **** baby
敏感詞包括政治、臟話等話題詞匯惠桃。其原理主要是基于詞典的查找(項(xiàng)目中的keyword文件),內(nèi)容很勁爆惰爬。喊暖。。
2. langid:97種語言檢測 https://github.com/saffsd/langid.py
pip install langid
>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)
3. langdetect:另一個(gè)語言檢測https://code.google.com/archive/p/language-detection/
pip install langdetect
from langdetect import detect
from langdetect import detect_langs
s1 = "本篇博客主要介紹兩款語言探測工具撕瞧,用于區(qū)分文本到底是什么語言陵叽,"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3)) # detect_langs()輸出探測出的所有語言類型及其所占的比例
輸出結(jié)果如下: 注:語言類型主要參考的是ISO 639-1語言編碼標(biāo)準(zhǔn),詳見ISO 639-1百度百科
跟上一個(gè)語言檢測比較丛版,準(zhǔn)確率低巩掺,效率高。
4. phone 中國手機(jī)歸屬地查詢: ls0f/phone
已集成到 python package cocoNLP中页畦,歡迎試用
from phone import Phone
p = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}
支持號(hào)段: 13*,15*,18*,14[5,7],17[0,6,7,8]
記錄條數(shù): 360569 (updated:2017年4月)
作者提供了數(shù)據(jù)phone.dat 方便非python用戶Load數(shù)據(jù)胖替。
5. phone國際手機(jī)、電話歸屬地查詢:AfterShip/phone
npm install phone
import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']
6. ngender 根據(jù)名字判斷性別:observerss/ngender 基于樸素貝葉斯計(jì)算的概率
pip install ngender
>>> import ngender
>>> ngender.guess('趙本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)
7. 抽取email的正則表達(dá)式
已集成到 python package cocoNLP中豫缨,歡迎試用
email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)
8. 抽取phone_number的正則表達(dá)式
已集成到 python package cocoNLP中独令,歡迎試用
cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)
9. 抽取身份證號(hào)的正則表達(dá)式
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)
10. 人名語料庫: wainshine/Chinese-Names-Corpus
人名抽取功能 python package cocoNLP,歡迎試用
中文(現(xiàn)代好芭、古代)名字燃箭、日文名字、中文的姓和名舍败、稱呼(大姨媽招狸、小姨媽等)、英文->中文名字(李約翰)邻薯、成語詞典
(可用于中文分詞裙戏、姓名識(shí)別)
11. 中文縮寫庫:github
全國人大: 全國/n 人民/n 代表大會(huì)/n
中國: 中華人民共和國/ns
女網(wǎng)賽: 女子/n 網(wǎng)球/n 比賽/vn
12. 漢語拆字詞典:kfcd/chaizi
漢字 拆法 (一) 拆法 (二) 拆法 (三)
拆 手 斥 扌 斥 才 斥
13. 詞匯情感值:rainarch/SentiBridge
山泉水 充沛 0.400704566541 0.370067395878
視野 寬廣 0.305762728932 0.325320747491
大峽谷 驚險(xiǎn) 0.312137906517 0.378594957281
14. 中文詞庫、停用詞弛说、敏感詞 dongxiexidian/Chinese
此package的敏感詞庫分類更細(xì):
反動(dòng)詞庫挽懦, 敏感詞庫表統(tǒng)計(jì), 暴恐詞庫木人, 民生詞庫信柿, 色情詞庫
15. 漢字轉(zhuǎn)拼音:mozillazg/python-pinyin
文本糾錯(cuò)會(huì)用到
16. 中文繁簡體互轉(zhuǎn):skydark/nstools
17. 英文模擬中文發(fā)音引擎 funny chinese text to speech enginee:tinyfool/ChineseWithEnglish
say wo i ni
#說:我愛你
相當(dāng)于用英文音標(biāo)冀偶,模擬中文發(fā)音。
18. 汪峰歌詞生成器:phunterlau/wangfeng-rnn
我在這里中的夜里
就像一場是一種生命的意旪
就像我的生活變得在我一樣
可我們這是一個(gè)知道
我只是一天你會(huì)怎嗎
19. 同義詞庫渔嚷、反義詞庫进鸠、否定詞庫:guotong1988/chinese_dictionary
20. 無空格英文串分割、抽取單詞:wordninja
>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']
21. IP地址正則表達(dá)式:
(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)
22. 騰訊QQ號(hào)正則表達(dá)式:
[1-9]([0-9]{5,11})
23. 國內(nèi)固話號(hào)碼正則表達(dá)式:
[0-9-()()]{7,18}
24. 用戶名正則表達(dá)式:
[A-Za-z0-9_\-\u4e00-\u9fa5]+
25. 汽車品牌形病、汽車零件相關(guān)詞匯:
見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)
26. 時(shí)間抽瓤湍辍:
已集成到 python package cocoNLP中,歡迎試用
在2016年6月7日9:44執(zhí)行測試漠吻,結(jié)果如下
Hi量瓜,all。下周一下午三點(diǎn)開會(huì)
>> 2016-06-13 15:00:00-false
周一開會(huì)
>> 2016-06-13 00:00:00-true
下下周一開會(huì)
>> 2016-06-20 00:00:00-true
27. 各種中文詞向量: github repo
中文詞向量大全
28. 公司名字大全: github repo
29. 古詩詞庫: github repo 更全的古詩詞庫
30. THU整理的詞庫: link
已整理到本repo的data文件夾中.
IT詞庫途乃、財(cái)經(jīng)詞庫绍傲、成語詞庫、地名詞庫耍共、歷史名人詞庫烫饼、詩詞詞庫、醫(yī)學(xué)詞庫试读、飲食詞庫杠纵、法律詞庫、汽車詞庫钩骇、動(dòng)物詞庫
31. 中文聊天語料 link
該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料
32. 中文謠言數(shù)據(jù): github
該數(shù)據(jù)文件中比藻,每一行為一條json格式的謠言數(shù)據(jù),字段釋義如下: rumorCode: 該條謠言的唯一編碼倘屹,可以通過該編碼直接訪問該謠言舉報(bào)頁面韩容。 title: 該條謠言被舉報(bào)的標(biāo)題內(nèi)容 informerName: 舉報(bào)者微博名稱 informerUrl: 舉報(bào)者微博鏈接 rumormongerName: 發(fā)布謠言者的微博名稱 rumormongerUr: 發(fā)布謠言者的微博鏈接 rumorText: 謠言內(nèi)容 visitTimes: 該謠言被訪問次數(shù) result: 該謠言審查結(jié)果 publishTime: 該謠言被舉報(bào)時(shí)間
33. 情感波動(dòng)分析:github
詞庫已整理到本repo的data文件夾中.
本repo項(xiàng)目是一個(gè)通過與人對話獲得其情感值波動(dòng)圖譜, 內(nèi)用詞庫在data文件夾中.
34. 中文問答數(shù)據(jù)集:鏈接 提取碼: 2dva
35. 句子、QA相似度匹配:MatchZoo github
文本相似度匹配算法的集合唐瀑,包含多個(gè)深度學(xué)習(xí)的方法群凶,值得嘗試。
36. bert資源:
- bert論文中文翻譯: link
-
bert原作者的slides: link 提取碼: iarj
-
文本分類實(shí)踐: github
-
bert tutorial文本分類教程: github
-
bert pytorch實(shí)現(xiàn): github
-
bert用于中文命名實(shí)體識(shí)別 tensorflow版本: github
-
BERT生成句向量哄辣,BERT做文本分類请梢、文本相似度計(jì)算github
-
bert 基于 keras 的封裝分類標(biāo)注框架 Kashgari,幾分鐘即可搭建一個(gè)分類或者序列標(biāo)注模型: github
-
bert力穗、ELMO的圖解: github
-
BERT: Pre-trained models and downstream applications: github
37. Texar - Toolkit for Text Generation and Beyond: github
- 基于Tensorflow的開源工具包毅弧,旨在支持廣泛的機(jī)器學(xué)習(xí),特別是文本生成任務(wù)当窗,如機(jī)器翻譯够坐、對話、摘要、內(nèi)容處置元咙、語言建模等
38. 中文事件抽忍萦啊: github
- 中文復(fù)合事件抽取,包括條件事件庶香、因果事件甲棍、順承事件、反轉(zhuǎn)事件等事件抽取赶掖,并形成事理圖譜感猛。
39. cocoNLP: github
人名、地址奢赂、郵箱陪白、手機(jī)號(hào)、手機(jī)歸屬地 等信息的抽取膳灶,rake短語抽取算法拷泽。
pip install cocoNLP
>>> from cocoNLP.extractor import extractor
>>> ex = extractor()
>>> text = '急尋特朗普,男孩袖瞻,于2018年11月27號(hào)11時(shí)在陜西省安康市漢濱區(qū)走失。丟失發(fā)型短發(fā)拆吆,...如有線索聋迎,請迅速與警方聯(lián)系:18100065143,132-6156-2938枣耀,baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'
# 抽取郵箱
>>> emails = ex.extract_email(text)
>>> print(emails)
['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn']
# 抽取手機(jī)號(hào)
>>> cellphones = ex.extract_cellphone(text,nation='CHN')
>>> print(cellphones)
['18100065143', '13261562938']
# 抽取手機(jī)歸屬地霉晕、運(yùn)營商
>>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
>>> print(cell_locs)
cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}]
# 抽取地址信息
>>> locations = ex.extract_locations(text)
>>> print(locations)
['陜西省安康市漢濱區(qū)', '安康市漢濱區(qū)', '漢濱區(qū)']
# 抽取時(shí)間點(diǎn)
>>> times = ex.extract_time(text)
>>> print(times)
time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
# 抽取人名
>>> name = ex.extract_name(text)
>>> print(name)
特朗普
40. 國內(nèi)電話號(hào)碼正則匹配(三大運(yùn)營商+虛擬等): github
41. 清華大學(xué)XLORE:中英文跨語言百科知識(shí)圖譜: link
上述鏈接中包含了所有實(shí)體及關(guān)系的TTL文件,更多數(shù)據(jù)將在近期發(fā)布捞奕。
概念牺堰,實(shí)例,屬性和上下位關(guān)系數(shù)目
百度 | 中文維基 | 英文維基 | 總數(shù) | |
---|---|---|---|---|
概念數(shù)量 | 32,009 | 150,241 | 326,518 | 508,768 |
實(shí)例數(shù)量 | 1,629,591 | 640,622 | 1,235,178 | 3,505,391 |
屬性數(shù)量 | 157,370 | 45,190 | 26,723 | 229.283 |
InstanceOf | 7,584,931 | 1,449,925 | 3,032,515 | 12,067,371 |
SubClassOf | 2,784 | 191,577 | 555,538 | 749,899 |
跨語言連接(概念/實(shí)例)
百度 | 中文維基 | 英文維基 | |
---|---|---|---|
百度 | - | 10,216/336,890 | 4,846/303,108 |
中文維基 | 10,216/336,890 | - | 28,921/454,579 |
英文維基 | 4,846/303,108 | 28,921/454,579 | - |
42. 清華大學(xué)人工智能技術(shù)系列報(bào)告: link 每年會(huì)出AI領(lǐng)域相關(guān)的報(bào)告颅围,內(nèi)容包含
- 自然語言處理 link
- 知識(shí)圖譜 link
- 數(shù)據(jù)挖掘 link
- 自動(dòng)駕駛 link
- 機(jī)器翻譯 link
- 區(qū)塊鏈 link
- 機(jī)器人 link
- 計(jì)算機(jī)圖形學(xué) link
- 3D打印 link
- 人臉識(shí)別 link
- 人工智能芯片 link
- 等等
43.自然語言生成方面:
- Ehud Reiter教授的博客 北大萬小軍教授強(qiáng)力推薦伟葫,該博客對NLG技術(shù)、評價(jià)與應(yīng)用進(jìn)行了深入的探討與反思院促。
- 文本生成相關(guān)資源大列表
- 自然語言生成:讓機(jī)器掌握自動(dòng)創(chuàng)作的本領(lǐng) - 開放域?qū)υ捝杉霸谖④浶”械膶?shí)踐
- 文本生成控制
- 自然語言生成相關(guān)資源大列表
- 用BLEURT評價(jià)自然語言生成
45.NLP太難了系列: github
- 來到楊過曾經(jīng)生活過的地方,小龍女動(dòng)情地說:“我也想過過過兒過過的生活常拓〗ト埽”
- 來到兒子等校車的地方,鄧超對孫儷說:“我也想等等等等等過的那輛車弄抬【シ”
- 趙敏說:我也想控忌忌己不想無忌。
- 你也想犯范范范瑋琪犯過的錯(cuò)嗎
- 對敘打擊是一次性行為?
46.自動(dòng)對聯(lián)數(shù)據(jù)及機(jī)器人:
70萬對聯(lián)數(shù)據(jù) link
代碼 link
上聯(lián) | 下聯(lián) |
---|---|
殷勤怕負(fù)三春意 | 瀟灑難書一字愁 |
如此清秋何吝酒 | 這般明月不須錢 |
47.用戶名黑名單列表: github
包含了用戶名禁用列表拖陆,比如: link
administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1
48.罪名法務(wù)名詞及分類模型: github
包含856項(xiàng)罪名知識(shí)圖譜, 基于280萬罪名訓(xùn)練庫的罪名預(yù)測,基于20W法務(wù)問答對的13類問題分類與法律資訊問答功能
49.微信公眾號(hào)語料: github
3G語料弛槐,包含部分網(wǎng)絡(luò)抓取的微信公眾號(hào)的文章,已經(jīng)去除HTML慕蔚,只包含了純文本丐黄。每行一篇,是JSON格式孔飒,name是微信公眾號(hào)名字灌闺,account是微信公眾號(hào)ID,title是題目坏瞄,content是正文
50.cs224n深度學(xué)習(xí)自然語言處理課程:link
51.中文手寫漢字識(shí)別:github
52.中文自然語言處理 語料/數(shù)據(jù)集:github
競品:THUOCL(THU Open Chinese Lexicon)中文詞庫
54.分詞語料庫+代碼:百度網(wǎng)盤鏈接
- 提取碼: pea6
- keras實(shí)現(xiàn)的基于Bi-LSTM + CRF的中文分詞+詞性標(biāo)注
- 基于Universal Transformer + CRF 的中文分詞和詞性標(biāo)注
- 快速神經(jīng)網(wǎng)絡(luò)分詞包 java version
55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein: link
56. 任務(wù)型對話英文數(shù)據(jù)集: github 【最全任務(wù)型對話數(shù)據(jù)集】主要介紹了一份任務(wù)型對話數(shù)據(jù)集大全桂对,這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對話領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外鸠匀,為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò)蕉斜,我們以Leaderboard的形式給出了幾個(gè)數(shù)據(jù)集上的State-of-the-art實(shí)驗(yàn)結(jié)果。
57. ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識(shí)別系統(tǒng): github
-
Data Sets 數(shù)據(jù)集
-
清華大學(xué)THCHS30中文語音數(shù)據(jù)集
data_thchs30.tgz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像test-noise.tgz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像resource.tgz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像 -
Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像 -
AIShell-1 開源版數(shù)據(jù)集
data_aishell.tgz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像
注:數(shù)據(jù)集解壓方法
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
-
Primewords Chinese Corpus Set 1
primewords_md_2018_set1.tar.gz
OpenSLR國內(nèi)鏡像
OpenSLR國外鏡像
-
58. 笑聲檢測器: github
59. Microsoft多語言數(shù)字/單位/如日期時(shí)間識(shí)別包: [github](https://github.com/Microsoft/Recognizers-Text
60. chinese-xinhua 中華新華字典數(shù)據(jù)庫及api缀棍,包括常用歇后語宅此、成語、詞語和漢字 github
61. 文檔圖譜自動(dòng)生成 github
- TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method爬范。輸入一篇文檔父腕,將文檔進(jìn)行關(guān)鍵信息提取,進(jìn)行結(jié)構(gòu)化青瀑,并最終組織成圖譜組織形式璧亮,形成對文章語義信息的圖譜化展示
62. SpaCy 中文模型 github
- 包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的斥难,如果要適配中文枝嘶,可能需要使用spacy中文模型。
63. Common Voice語音識(shí)別數(shù)據(jù)集新版 link
- 包括來自42,000名貢獻(xiàn)者超過1,400小時(shí)的語音樣本哑诊,涵github
64. 神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 pytorch github
- 暫不支持中文
65. 基于bert的命名實(shí)體識(shí)別 pytorch github
- 暫不支持中文
66. 關(guān)鍵詞(Keyphrase)抽取包 pke github
pke: an open source python-based keyphrase extraction toolkit
- 暫不支持中文群扶,我于近期對其進(jìn)行修改,使其適配中文镀裤。 請關(guān)注我的github動(dòng)態(tài)穷当,謝謝!
67. 基于醫(yī)療領(lǐng)域知識(shí)圖譜的問答系統(tǒng) github
- 該repo參考了github
68. 基于依存句法與語義角色標(biāo)注的事件三元組抽取 github
69. 依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù) by 蘇州大學(xué)漢語依存樹庫(SUCDT)
Homepage
數(shù)據(jù)下載詳見homepage底部淹禾,需要簽署協(xié)議馁菜,需要郵件接收解壓密碼。
70. cnocr:用來做中文OCR的Python3包铃岔,自帶了訓(xùn)練好的識(shí)別模型 github
71. 中文人物關(guān)系知識(shí)圖譜項(xiàng)目 github
- 中文人物關(guān)系圖譜構(gòu)建
- 基于知識(shí)庫的數(shù)據(jù)回標(biāo)
- 基于遠(yuǎn)程監(jiān)督與bootstrapping方法的人物關(guān)系抽取
- 基于知識(shí)圖譜的知識(shí)問答等應(yīng)用
72. 中文nlp競賽項(xiàng)目及代碼匯總 github
- 文本生成汪疮、文本摘要:Byte Cup 2018 國際機(jī)器學(xué)習(xí)競賽
- 知識(shí)圖譜:瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識(shí)圖譜大賽
- 視頻識(shí)別 問答:2018之江杯全球人工智能大賽:視頻識(shí)別&問答
73. 中文字符數(shù)據(jù) github
- 簡/繁體漢字筆順
- 矢量筆畫
74. speech-aligner: 從“人聲語音”及其“語言文本”峭火,產(chǎn)生音素級(jí)別時(shí)間對齊標(biāo)注的工具 github
75. AmpliGraph: 知識(shí)圖譜表示學(xué)習(xí)(Python)庫:知識(shí)圖譜概念鏈接預(yù)測 github
- 埃森哲出品,目前尚不支持中文
76. Scattertext 文本可視化(python) github
- 很好用的工具包智嚷,簡單修改后可支持中文
- 能否分析出某個(gè)類別的文本與其他文本的用詞差異
77. 語言/知識(shí)表示工具:BERT & ERNIE github
- 百度出品卖丸,ERNIE也號(hào)稱在多項(xiàng)nlp任務(wù)中擊敗了bert
78. 中文對比英文自然語言處理NLP的區(qū)別綜述 link
79. Synonyms中文近義詞工具包 github
- Synonyms 中文近義詞工具包,可以用于自然語言理解的很多任務(wù):文本對齊盏道,推薦算法稍浆,相似度計(jì)算,語義偏移猜嘱,關(guān)鍵字提取忽匈,概念提取预侯,自動(dòng)摘要附鸽,搜索引擎等
80. HarvestText領(lǐng)域自適應(yīng)文本挖掘工具(新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等) github
81. word2word:(Python)方便易用的多語言詞-詞對集:62種語言/3,564個(gè)多語言對 github
82. 語音識(shí)別語料生成工具:從具有音頻/字幕的在線視頻創(chuàng)建自動(dòng)語音識(shí)別(ASR)語料庫 github
83. ASR語音大辭典/詞典: github
84. 構(gòu)建醫(yī)療實(shí)體識(shí)別的模型昨稼,包含詞典和語料標(biāo)注,基于python: github
85. 單文檔非監(jiān)督的關(guān)鍵詞抽嚷劢浴: github
86. Kashgari中使用gpt-2語言模型 github
87. 開源的金融投資數(shù)據(jù)提取工具 github
88. 文本自動(dòng)摘要庫TextTeaser: 僅支持英文 github
89. 人民日報(bào)語料處理工具集 github
90. 一些關(guān)于自然語言的基本模型 github
91. 基于14W歌曲知識(shí)庫的問答嘗試益楼,功能包括歌詞接龍,已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答 github
92. 基于Siamese bilstm模型的相似句子判定模型,提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集 github
- 提供了10萬個(gè)訓(xùn)練樣本
93. 用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動(dòng)生成評論 github
94. 用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼 github
95. LitBank:NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料 github
96. 百度開源的基準(zhǔn)信息抽取系統(tǒng) github
97. 虛假新聞數(shù)據(jù)集 fake news corpus github
98. Facebook: LAMA語言模型分析点晴,提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口 github
- 用于分析預(yù)訓(xùn)練語言模型中包含的事實(shí)和常識(shí)知識(shí)的探針感凤。
99. CommonsenseQA:面向常識(shí)的英文QA挑戰(zhàn) link
100. 中文知識(shí)圖譜資料、數(shù)據(jù)及工具 github
101. 各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT github
102. 自然語言生成SQL語句(英文) github
103. 中文NLP數(shù)據(jù)增強(qiáng)(EDA)工具 github
104. 基于醫(yī)藥知識(shí)圖譜的智能問答系統(tǒng) github
105. 京東商品知識(shí)圖譜 github
- 基于京東網(wǎng)站的1300種商品上下級(jí)概念粒督,約10萬商品品牌陪竿,約65萬品牌銷售關(guān)系,商品描述維度等知識(shí)庫坠陈,基于該知識(shí)庫可以支持商品屬性庫構(gòu)建,商品銷售問答捐康,品牌物品生產(chǎn)等知識(shí)查詢服務(wù)仇矾,也可用于情感分析等下游應(yīng)用.
106. 基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目 github
- 基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目,包括飛行器解总、太空裝備等8大類贮匕,100余小類,共計(jì)5800項(xiàng)的軍事武器知識(shí)庫花枫,該項(xiàng)目不使用圖數(shù)據(jù)庫進(jìn)行存儲(chǔ)刻盐,通過jieba進(jìn)行問句解析,問句實(shí)體項(xiàng)識(shí)別劳翰,基于查詢模板完成多類問題的查詢敦锌,主要是提供一種工業(yè)界的問答思想demo。
107. 基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取 github
108. 語音情感分析 github
109. 中文ULMFiT 情感分析 文本分類 語料及模型 github
110. 一個(gè)拍照做題程序佳簸。輸入一張包含數(shù)學(xué)計(jì)算題的圖片乙墙,輸出識(shí)別出的數(shù)學(xué)計(jì)算式以及計(jì)算結(jié)果 github
111. 世界各國大規(guī)模人名庫 github
112. 一個(gè)利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人 github
- 使用了青云語料10萬語料,本repo中也有該語料的鏈接
113. 中文聊天機(jī)器人, 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人听想,可以用于智能客服腥刹、在線問答、智能聊天等場景 github
- 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人汉买,可以用于智能客服衔峰、在線問答、智能聊天等場景蛙粘。加入seqGAN版本垫卤。
- repo中提供了一份質(zhì)量不太高的語料
114. 省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注 github
- 國家統(tǒng)計(jì)局中的省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注,高德地圖的坐標(biāo)和行政區(qū)域邊界范圍组题,在瀏覽器里面運(yùn)行js代碼采集的2019年發(fā)布的最新數(shù)據(jù)葫男,含采集源碼,提供csv格式數(shù)據(jù)崔列,支持csv轉(zhuǎn)成省市區(qū)多級(jí)聯(lián)動(dòng)js代碼
- 坐標(biāo)梢褐、邊界范圍、名稱赵讯、拼音盈咳、行政區(qū)等多級(jí)地址
115. 教育行業(yè)新聞 自動(dòng)文摘 語料庫 github
116. 開放了對話機(jī)器人、知識(shí)圖譜边翼、語義理解鱼响、自然語言處理工具及數(shù)據(jù) github
117. 中文知識(shí)圖譜:基于百度百科中文頁面组底,抽取三元組信息丈积,構(gòu)建中文知識(shí)圖譜 github
118. masr: 中文語音識(shí)別,提供預(yù)訓(xùn)練模型债鸡,高識(shí)別率 github
119. Python音頻數(shù)據(jù)增廣庫 github
120. 中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù) github
- DRCD數(shù)據(jù)集由中國臺(tái)灣臺(tái)達(dá)研究院發(fā)布江滨,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集厌均。
- CMRC 2018數(shù)據(jù)集是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)唬滑。根據(jù)給定問題,系統(tǒng)需要從篇章中抽取出片段作為答案棺弊,形式與SQuAD相同晶密。
121. ConvLab:開源多域端到端對話系統(tǒng)平臺(tái) github
122. 中文自然語言處理數(shù)據(jù)集 github
123. 基于最新版本rasa搭建的對話系統(tǒng) github
124. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取 github
- Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取,2019語言與智能技術(shù)競賽信息抽取任務(wù)解決方案模她。Schema based Knowledge Extraction, SKE 2019
125. 一個(gè)小型的證券知識(shí)圖譜/知識(shí)庫 github
126. 復(fù)盤所有NLP比賽的TOP方案 github
127. OpenCLaP:多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫 github 包含如下語言模型及百度百科數(shù)據(jù)
- 民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
- 刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
- 百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB
128. UER:基于不同語料稻艰、編碼器、目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫(包括BERT侈净、GPT连锯、ELMO等) github
- 基于PyTorch的預(yù)訓(xùn)練模型框架归苍,支持對編碼器,目標(biāo)任務(wù)等進(jìn)行任意的組合运怖,從而復(fù)現(xiàn)已有的預(yù)訓(xùn)練模型拼弃,或在已有的預(yù)訓(xùn)練模型上進(jìn)一步改進(jìn)∫≌梗基于UER訓(xùn)練了不同性質(zhì)的預(yù)訓(xùn)練模型(不同語料吻氧、編碼器、目標(biāo)任務(wù))咏连,構(gòu)成了中文預(yù)訓(xùn)練模型倉庫盯孙,適用于不同的場景。
129. 中文自然語言處理向量合集 github
- 包括字向量,拼音向量,詞向量,詞性向量,依存關(guān)系向量.共5種類型的向量
130. 基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人 github
- 其中的主要模塊有信息抽取祟滴、NLU振惰、NLG、知識(shí)圖譜等垄懂,并且利用Django整合了前端展示,目前已經(jīng)封裝了nlp和kg的restful接口
131. g2pC:基于上下文的漢語讀音自動(dòng)標(biāo)記模塊 github
132. Zincbase 知識(shí)圖譜構(gòu)建工具包 github
133. 詩歌質(zhì)量評價(jià)/細(xì)粒度情感詩歌語料庫 github
134. 快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」 github
- 中文骑晶、阿拉伯?dāng)?shù)字互轉(zhuǎn)
- 中文與阿拉伯?dāng)?shù)字混合的情況,在開發(fā)中
135. 百度知道問答語料庫 github
- 超過580萬的問題草慧,938萬的答案桶蛔,5800個(gè)分類標(biāo)簽÷龋基于該問答語料庫仔雷,可支持多種應(yīng)用,如閑聊問答舔示,邏輯挖掘
136. 基于知識(shí)圖譜的問答系統(tǒng) github
- BERT做命名實(shí)體識(shí)別和句子相似度碟婆,分為online和outline模式
137. jieba_fast 加速版的jieba github
- 使用cpython重寫了jieba分詞庫中計(jì)算DAG和HMM中的vitrebi函數(shù),速度得到大幅提升
138. 正則表達(dá)式教程 github
139. 中文閱讀理解數(shù)據(jù)集 github
140. 基于BERT等最新語言模型的抽取式摘要提取 github
141. Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南 link
142. 知識(shí)圖譜深度學(xué)習(xí)相關(guān)資料整理 github
- 深度學(xué)習(xí)與自然語言處理惕稻、知識(shí)圖譜竖共、對話系統(tǒng)。包括知識(shí)獲取缩宜、知識(shí)庫構(gòu)建肘迎、知識(shí)庫應(yīng)用三大技術(shù)研究與應(yīng)用
143. 維基大規(guī)模平行文本語料 github
- 85種語言甥温、1620種語言對锻煌、135M對照句
144. StanfordNLP 0.2.0:純Python版自然語言處理包 link
145. NeuralNLP-NeuralClassifier:騰訊開源深度學(xué)習(xí)文本分類工具 github
146. 端到端的封閉域?qū)υ捪到y(tǒng) github
147. 中文命名實(shí)體識(shí)別:NeuroNER vs. BertNER github
148. 新聞事件線索抽取 github
- An exploration for Eventline (important news Rank organized by pulic time),針對某一事件話題下的新聞報(bào)道集合姻蚓,通過使用docrank算法宋梧,對新聞報(bào)道進(jìn)行重要性識(shí)別,并通過新聞報(bào)道時(shí)間挑選出時(shí)間線上重要新聞
149. 2019年百度的三元組抽取比賽狰挡,“科學(xué)空間隊(duì)”源碼(第7名) github
150. 基于依存句法的開放域文本知識(shí)三元組抽取和知識(shí)庫構(gòu)建 github
151. 中文的GPT2訓(xùn)練代碼 github
152. ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)捂龄、NLP面試中呈吞危考到的知識(shí)點(diǎn)和代碼實(shí)現(xiàn) github
153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查 github
154. XLM:Facebook的跨語言預(yù)訓(xùn)練語言模型 github
155. 用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識(shí)圖譜百度百科人物詞條屬性抽取 github
156. 中文自然語言處理相關(guān)的開放任務(wù),數(shù)據(jù)集, 以及當(dāng)前最佳結(jié)果 github
157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動(dòng)對對聯(lián)系統(tǒng) github
158. 抽象知識(shí)圖譜倦沧,目前規(guī)模50萬唇撬,支持名詞性實(shí)體、狀態(tài)性描述展融、事件性動(dòng)作進(jìn)行抽象 github
159. MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目 github
160. brat rapid annotation tool: 序列標(biāo)注工具 link
161. 大規(guī)模中文知識(shí)圖譜數(shù)據(jù)::1.4億實(shí)體 github
162. 數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果 link
163. allennlp閱讀理解:支持多種數(shù)據(jù)和模型 github
164. PDF表格數(shù)據(jù)提取工具 github
165. Graphbrain:AI開源軟件庫和科研工具窖认,目的是促進(jìn)自動(dòng)意義提取和文本理解以及知識(shí)的探索和推斷 github
166. 簡歷自動(dòng)篩選系統(tǒng) github
167. 基于命名實(shí)體識(shí)別的簡歷自動(dòng)摘要 github
168. 中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜 github
169. 樹洞 OCR 文字識(shí)別 github
- 一個(gè)c++ OCR github
170. 從包含表格的掃描圖片中識(shí)別表格和文字 github
171. 語聲遷移 github
172. Python口語自然語言處理工具集(英文) github
173. similarity:相似度計(jì)算工具包告希,java編寫 github
- 用于詞語扑浸、短語、句子燕偶、詞法分析喝噪、情感分析、語義分析等相關(guān)的相似度計(jì)算
174. 海量中文預(yù)訓(xùn)練ALBERT模型 github
175. Transformers 2.0 github
- 支持TensorFlow 2.0 和 PyTorch 的自然語言處理預(yù)訓(xùn)練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構(gòu)/33種預(yù)訓(xùn)練模型/102種語言
176. 基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng) github
177. Poplar:網(wǎng)頁版自然語言標(biāo)注工具 github
178. 圖片文字去除指么,可用于漫畫翻譯 github
179. 186種語言的數(shù)字叫法庫 github
180. Amazon發(fā)布基于知識(shí)的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集 github
181. 中文文本糾錯(cuò)模塊代碼 github
182. 繁簡體轉(zhuǎn)換 github
183. Python實(shí)現(xiàn)的多種文本可讀性評價(jià)指標(biāo) github
184. 類似于人名/地名/組織機(jī)構(gòu)名的命名體識(shí)別數(shù)據(jù)集 github
185. 東南大學(xué)《知識(shí)圖譜》研究生課程(資料) github
186. 英文拼寫檢查庫 github
from spellchecker import SpellChecker
spell = SpellChecker()
# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])
for word in misspelled:
# Get the one `most likely` answer
print(spell.correction(word))
# Get a list of `likely` options
print(spell.candidates(word))
187. wwsearch是企業(yè)微信后臺(tái)自研的全文檢索引擎 github
188. CHAMELEON:深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu) github
189. 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思 github
190. DocSearch:免費(fèi)文檔搜索引擎 github
191. LIDA:輕量交互式對話標(biāo)注工具 github
192. aili - the fastest in-memory index in the East 東半球最快并發(fā)索引 github
193. 知識(shí)圖譜車音工作項(xiàng)目 github
194. 自然語言生成資源大全 github
- 內(nèi)含英文數(shù)據(jù)酝惧、論文、代碼
195. 中日韓分詞庫mecab的Python接口庫 github
196. 中文文本摘要/關(guān)鍵詞提取 github
197. 漢字字符特征提取器 (featurizer)涧尿,提取漢字的特征(發(fā)音特征系奉、字形特征)用做深度學(xué)習(xí)的特征 github
198. 中文生成任務(wù)基準(zhǔn)測評 github
199. 中文縮寫數(shù)據(jù)集 github
200. 中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜 github
201. PySS3:面向可解釋AI的SS3文本分類器機(jī)器可視化工具 github
202. 中文NLP數(shù)據(jù)集列表 github
203. COPE - 格律詩編輯程序 github
204. doccano:基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具 github
205. PreNLP:自然語言預(yù)處理庫 github
206. 簡單的簡歷解析器,用來從簡歷中提取關(guān)鍵信息 github
207. 用于中文閑聊的GPT2模型:GPT2-chitchat github
208. 基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards姑廉、Datasets缺亮、Papers) github
209. (Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程 github
210. 詞語拼音數(shù)據(jù) github
211. 高效模糊搜索工具 github
212. NLP數(shù)據(jù)增廣資源集 github
213. 微軟對話機(jī)器人框架 github
214. GitHub Typo Corpus:大規(guī)模GitHub多語言拼寫錯(cuò)誤/語法錯(cuò)誤數(shù)據(jù)集 github
215. TextCluster:短文本聚類預(yù)處理模塊 Short text cluster github
216. 面向語音識(shí)別的中文文本規(guī)范化 github
217. BLINK:最先進(jìn)的實(shí)體鏈接庫 github
218. BertPunc:基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型 github
219. Tokenizer:快速、可定制的文本詞條化庫 github
220. 中文語言理解測評基準(zhǔn)桥言,包括代表性的數(shù)據(jù)集萌踱、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫号阿、排行榜 github
221. spaCy 醫(yī)學(xué)文本挖掘與信息提取 github
222. NLP任務(wù)示例項(xiàng)目代碼集 github
223. python拼寫檢查庫 github
224. chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服并鸵、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹 github
225. 語音質(zhì)量評價(jià)指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR) github
226. 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型 link
227. BERT-NER-Pytorch:三種不同模式的BERT中文NER實(shí)驗(yàn) github
228. 無道詞典 - 有道詞典的命令行版本扔涧,支持英漢互查和在線查詢 github
229. 2019年NLP亮點(diǎn)回顧 download
- 提取碼: yb6x
230. Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集 github
231. 最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具 github
232. 基于百科知識(shí)庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧 github
233. awesome-nlp-sentiment-analysis - 情感分析园担、情緒原因識(shí)別、評價(jià)對象和評價(jià)詞抽取 github
234. LineFlow:面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器 github
235. 中文醫(yī)學(xué)NLP公開資源整理 github
236. MedQuAD:(英文)醫(yī)學(xué)問答數(shù)據(jù)集 github
237. 將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù) github
238. Transfer Learning in Natural Language Processing (NLP) youtube
239. 面向語音識(shí)別的中文/英文發(fā)音辭典 github
240. Tokenizers:注重性能與多功能性的最先進(jìn)分詞器 github
241. CLUENER 細(xì)粒度命名實(shí)體識(shí)別 Fine Grained Named Entity Recognition github
242. 基于BERT的中文命名實(shí)體識(shí)別 github
243. 中文謠言數(shù)據(jù)庫 github
244. NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表 github
- 大多數(shù)為英文數(shù)據(jù)
245. nlp相關(guān)的一些論文及代碼, 包括主題模型枯夜、詞向量(Word Embedding)弯汰、命名實(shí)體識(shí)別(NER)、文本分類(Text Classificatin)湖雹、文本生成(Text Generation)咏闪、文本相似性(Text Similarity)計(jì)算等,涉及到各種與nlp相關(guān)的算法摔吏,基于keras和tensorflow github
246. Python文本挖掘/NLP實(shí)戰(zhàn)示例 github
247. Blackstone:面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型 github
248. 通過同義詞替換實(shí)現(xiàn)文本“變臉” github
249. 中文 預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model github
250. albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER github
251. 基于GPT2的特定主題文本生成/文本增廣 github
252. 開源預(yù)訓(xùn)練語言模型合集 github
253. 多語言句向量包 github
254. 編碼鸽嫂、標(biāo)記和實(shí)現(xiàn):一種可控高效的文本生成方法 github
255. 英文臟話大列表 github
256. attnvis:GPT2纵装、BERT等transformer語言模型注意力交互可視化 github
257. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫,包括11種語言(法語据某、德語橡娄、荷蘭語、俄語癣籽、西班牙語瀑踢、意大利語、土耳其語才避、波斯語橱夭、瑞典語、蒙古語和中文)的語音桑逝、文字轉(zhuǎn)錄及英文譯文 github
258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ)棘劣,提供知識(shí)圖譜關(guān)系抽取 中文分詞 詞性標(biāo)注 命名實(shí)體識(shí)別 情感分析 新詞發(fā)現(xiàn) 關(guān)鍵詞 文本摘要 文本聚類等功能 github
259. 用unet實(shí)現(xiàn)對文檔表格的自動(dòng)檢測,表格重建 github
260. NLP事件提取文獻(xiàn)資源列表 github
261. 金融領(lǐng)域自然語言處理研究資源大列表 github
262. CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集:搜索所有中文NLP數(shù)據(jù)集楞遏,附常用英文NLP數(shù)據(jù)集 github
263. medical_NER - 中文醫(yī)學(xué)知識(shí)圖譜命名實(shí)體識(shí)別 github
264. (哈佛)講因果推理的免費(fèi)書 pdf
265. 知識(shí)圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表 github
266. Forte:靈活強(qiáng)大的自然語言處理pipeline工具集 github
267. Python字符串相似性算法庫 github
268. PyLaia:面向手寫文檔分析的深度學(xué)習(xí)工具包 github
269. TextFooler:針對文本分類/推理的對抗文本生成模塊 github
270. Haystack:靈活茬暇、強(qiáng)大的可擴(kuò)展問答(QA)框架 github
271. 中文關(guān)鍵短語抽取工具 github
272. pdf文檔解析相關(guān)工具包
- pdf生成
- fdfgen: 能夠自動(dòng)創(chuàng)建pdf文檔,并填寫信息
- pdf表格解析
- pdftabextract: 用于OCR識(shí)別后的表格信息解析寡喝,很強(qiáng)大
- tabula-py: 直接將pdf中的表格信息轉(zhuǎn)換為pandas的dataframe糙俗,有java和python兩種版本代碼
- pdfx: 自動(dòng)抽取出引用參考文獻(xiàn),并下載對應(yīng)的pdf文件
- invoice2data: 發(fā)票pdf信息抽取
- camelot: pdf表格解析
- pdfplumber: pdf表格解析
- pdf文檔信息抽取
- pdf語義分割
- PubLayNet:能夠劃分段落预鬓、識(shí)別表格巧骚、圖片
- pdf讀取工具
- PDFMiner:PDFMiner能獲取頁面中文本的準(zhǔn)確位置,以及字體或行等其他信息格二。它還有一個(gè)PDF轉(zhuǎn)換器劈彪,可以將PDF文件轉(zhuǎn)換成其他文本格式(如HTML)。還有一個(gè)可擴(kuò)展的解析器PDF顶猜,可以用于文本分析以外的其他用途沧奴。
- PyPDF2:PyPDF 2是一個(gè)python PDF庫,能夠分割长窄、合并滔吠、裁剪和轉(zhuǎn)換PDF文件的頁面。它還可以向PDF文件中添加自定義數(shù)據(jù)挠日、查看選項(xiàng)和密碼疮绷。它可以從PDF檢索文本和元數(shù)據(jù),還可以將整個(gè)文件合并在一起肆资。
- ReportLab:ReportLab能快速創(chuàng)建PDF 文檔矗愧。經(jīng)過時(shí)間證明的灶芝、超好用的開源項(xiàng)目郑原,用于創(chuàng)建復(fù)雜的唉韭、數(shù)據(jù)驅(qū)動(dòng)的PDF文檔和自定義矢量圖形。它是免費(fèi)的犯犁,開源的属愤,用Python編寫的。該軟件包每月下載5萬多次酸役,是標(biāo)準(zhǔn)Linux發(fā)行版的一部分住诸,嵌入到許多產(chǎn)品中,并被選中為Wikipedia的打印/導(dǎo)出功能提供動(dòng)力涣澡。
273. 中文詞語相似度計(jì)算方法 gihtub
- 綜合了同義詞詞林?jǐn)U展版與知網(wǎng)(Hownet)的詞語相似度計(jì)算方法贱呐,詞匯覆蓋更多、結(jié)果更準(zhǔn)確入桂。
274. 人民日報(bào)語料庫處理工具集 github
275. stanza:斯坦福團(tuán)隊(duì)NLP工具 github
- 可處理六十多種語言
276. 一個(gè)大規(guī)模醫(yī)療對話數(shù)據(jù)集 github
- 包含110萬醫(yī)學(xué)咨詢奄薇,400萬條醫(yī)患對話
277. 新冠肺炎相關(guān)數(shù)據(jù)
278. DGL-KE 圖嵌入表示學(xué)習(xí)算法 github
279. nlp-recipes:微軟出品–自然語言處理最佳實(shí)踐和范例 github
280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個(gè)快速從自然語言文本中提取和識(shí)別關(guān)鍵短語的工具 github
281. 使用GAN生成表格數(shù)據(jù)(僅支持英文) github
282. Google發(fā)布Taskmaster-2自然語言任務(wù)對話數(shù)據(jù)集 github
283. BDCI2019金融負(fù)面信息判定 github
284. 用神經(jīng)網(wǎng)絡(luò)符號(hào)推理求解復(fù)雜數(shù)學(xué)方程 github
285. 粵語/英語會(huì)話雙語語料庫 github
286. 中文ELECTRA預(yù)訓(xùn)練模型 github
287. 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程 github
288. Parakeet:基于PaddlePaddle的文本-語音合成 github
289. 103976個(gè)英語單詞庫(sql版,csv版抗愁,Excel版)包 github
290. 《海賊王》知識(shí)圖譜 github
291. 法務(wù)智能文獻(xiàn)資源列表 github
292. Datasaur.ai 在線數(shù)據(jù)標(biāo)注工作流管理工具 link
293. (Java)準(zhǔn)確的語音自然語言檢測庫 github
294. 面向各語種/任務(wù)的BERT模型大列表/搜索引擎 link
295. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫 github
296. 基于預(yù)訓(xùn)練模型的中文關(guān)鍵詞抽取方法 github
297. Fancy-NLP:用于建設(shè)商品畫像的文本知識(shí)挖掘工具 github
298. 基于百度webqa與dureader數(shù)據(jù)集訓(xùn)練的Albert Large QA模型 github
299. BERT/CRF實(shí)現(xiàn)的命名實(shí)體識(shí)別 github
300. ssc, Sound Shape Code, 音形碼 - 基于“音形碼”的中文字符串相似度計(jì)算方法
301. 中文指代消解數(shù)據(jù) github
- baidu ink code: a0qq
302. 全面簡便的中文 NLP 工具包 github
303. 中文地址分詞(地址元素識(shí)別與抽饶俚佟),通過序列標(biāo)注進(jìn)行NER github
304. 用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)預(yù)測下一個(gè)詞(模型比較) github
305. 文本機(jī)器學(xué)習(xí)模型最先進(jìn)解釋器庫 github
306. 多文檔摘要數(shù)據(jù)集 github
307. 用記事本渲染3D圖像 github
308. char_featurizer - 漢字字符特征提取工具 github
309. SimBERT - 基于UniLM思想蜘腌、融檢索與生成于一體的BERT模型 github
310. Python音頻特征提取包 github
311. TensorFlow 2 實(shí)現(xiàn)的文本語音合成 github
312. 情感分析技術(shù):讓智能客服更懂人類情感 github
313. TensorFlow Hub最新發(fā)布40+種語言的新語言模型(包括中文) link
314. 漢字字符特征提取器 (featurizer)沫屡,提取漢字的特征(發(fā)音特征、字形特征)用做深度學(xué)習(xí)的特征 github
315. 工業(yè)界常用基于DSSM向量化召回pipeline復(fù)現(xiàn) github
316. 不存在的詞:用GPT-2變體從頭生成新詞及其定義撮珠、例句 github
317. TextAttack:自然語言處理模型對抗性攻擊框架 github
318. 仇恨言論檢測進(jìn)展 link
319. OPUS-100:以英文為中心的多語(100種)平行語料 github
320. 從論文中提取表格數(shù)據(jù) github
321. 讓人人都變得“彬彬有禮”:禮貌遷移任務(wù)——在保留意義的同時(shí)將非禮貌語句轉(zhuǎn)換為禮貌語句沮脖,提供包含1.39M + 實(shí)例的數(shù)據(jù)集 paper and code
322. 用BERT在表格中尋找答案 github
323. PyTorch實(shí)現(xiàn)的BERT事件抽取(ACE 2005 corpus) github
324. 表格問答的系列文章
325. LibKGE:面向可復(fù)現(xiàn)研究的知識(shí)圖譜嵌入庫 github
326. comparxiv :用于比較arXiv上兩提交版本差異的命令 pypi
327. ViSQOL:音頻質(zhì)量感知客觀、完整參考指標(biāo)芯急,分音頻倘潜、語音兩種模式 github
328. 方面情感分析包 github
329. dstlr:非結(jié)構(gòu)化文本可擴(kuò)展知識(shí)圖譜構(gòu)建平臺(tái) github
330. 由文本自動(dòng)生成多項(xiàng)選擇題 github
331. 大規(guī)模跨領(lǐng)域中文任務(wù)導(dǎo)向多輪對話數(shù)據(jù)集及模型CrossWOZ paper & data
332. whatlies:詞向量交互可視化 spacy 工具
333. 支持批并行的LatticeLSTM中文命名實(shí)體識(shí)別 github
334. 基于Albert志于、Electra涮因,用維基百科文本作為上下文的問答引擎 github
335. Deepmatch:針對推薦、廣告和搜索的深度匹配模型庫 github
336. 語音工具合集
- zhrtvc 好用的中文語音克隆兼中文語音合成系統(tǒng) github
- aukit 好用的語音處理工具箱伺绽,包含語音降噪养泡、音頻格式轉(zhuǎn)換、特征頻譜生成等模塊 github
- phkit 好用的音素處理工具箱奈应,包含中文音素澜掩、英文音素、文本轉(zhuǎn)拼音杖挣、文本正則化等模塊 github
- zhvoice 中文語音語料肩榕,語音更加清晰自然,包含8個(gè)開源數(shù)據(jù)集惩妇,3200個(gè)說話人株汉,900小時(shí)語音筐乳,1300萬字 github
337. 多音字詞典數(shù)據(jù)及代碼 github
338. audio:面向語音行為檢測、二值化乔妈、說話人識(shí)別蝙云、自動(dòng)語音識(shí)別、情感識(shí)別等任務(wù)的音頻標(biāo)注工具 github
339. 大規(guī)模路召、結(jié)構(gòu)化勃刨、中英文雙語的新冠知識(shí)圖譜(COKG-19) link
- COKG-19包含了505個(gè)概念、393個(gè)屬性股淡、26282個(gè)實(shí)例和32352個(gè)知識(shí)三元組身隐,覆蓋了醫(yī)療、健康唯灵、物資抡医、防控、科研和人物等
340. 132個(gè)知識(shí)圖譜的數(shù)據(jù)集 link
- 涵蓋常識(shí)早敬、城市忌傻、金融、農(nóng)業(yè)搞监、地理水孩、氣象、社交琐驴、物聯(lián)網(wǎng)俘种、醫(yī)療、娛樂绝淡、生活宙刘、商業(yè)、出行牢酵、科教
341. 42GB的JD客服對話數(shù)據(jù)(CSDD) github
- 12億句子訓(xùn)練得到的word embedding
342. 合成數(shù)據(jù)生成基準(zhǔn) github
343. 漢字悬包、詞語、成語查詢接口 github
344. 中文問題句子相似度計(jì)算比賽及方案匯總 github
345. Texthero:文本數(shù)據(jù)高效處理包馍乙,包括預(yù)處理布近、關(guān)鍵詞提取、命名實(shí)體識(shí)別丝格、向量空間分析撑瞧、文本可視化等 github
346. SIMPdf:Python寫的簡單PDF文件文字編輯器 github
347. 《配色辭典》數(shù)據(jù)集 github
348. carefree-learn:(PyTorch)表格數(shù)據(jù)集自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)包 github
349. token2index:與PyTorch/Tensorflow兼容的強(qiáng)大輕量詞條索引庫 github
350. 開源對話式信息搜索平臺(tái) github
351. 對聯(lián)數(shù)據(jù) github
- 700,000 couplets, 超過70萬對對聯(lián)
- 百度云盤:鏈接 密碼:egpt
352. 基于Pytorch的Bert應(yīng)用,包括命名實(shí)體識(shí)別显蝌、情感分析预伺、文本分類以及文本相似度等 github
353. TaBERT:理解表格數(shù)據(jù)查詢的新模型 paper
354. Dakshina數(shù)據(jù)集:十二種南亞語言的拉丁/本地文字平行數(shù)據(jù)集合 github
355. NLP標(biāo)注平臺(tái)綜述 github
356. 封閉域微調(diào)表格檢測 github
357. 深度學(xué)習(xí)情感文本語音合成 github
358. 中文寫作校對工具 github
359. 用Quora問題對訓(xùn)練的T5問題意譯(Paraphrase) github
360. 情境互動(dòng)多模態(tài)對話挑戰(zhàn)2020(DSTC9 2020) github
361. nlpgnn:圖神經(jīng)網(wǎng)絡(luò)自然語言處理工具箱 github
362. Macadam:以Tensorflow(Keras)和bert4keras為基礎(chǔ),專注于文本分類、序列標(biāo)注和關(guān)系抽取的自然語言處理工具包 github
363. 用新版nlp庫加載17GB+英文維基語料只占用9MB內(nèi)存遍歷速度2-3 Gbit/s github
本文使用 文章同步助手 同步