NLP自然語言處理資料匯總

NLP民工的樂園

[toc]

NLP民工的樂園: 幾乎最全的中文NLP資源庫

  • https://github.com/fighting41love/funNLP

  • 詞庫

  • 工具包

  • 學(xué)習(xí)資料


在入門到熟悉NLP的過程中宾濒,用到了很多github上的包楷掉,遂整理了一下,分享在這里掂骏。


1. textfilter: 中英文敏感詞過濾 observerss/textfilter

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

敏感詞包括政治、臟話等話題詞匯惠桃。其原理主要是基于詞典的查找(項(xiàng)目中的keyword文件),內(nèi)容很勁爆惰爬。喊暖。。

2. langid:97種語言檢測 https://github.com/saffsd/langid.py

pip install langid

>>> import langid
>>> langid.classify("This is a test")
('en', -54.41310358047485)

3. langdetect:另一個(gè)語言檢測https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect
from langdetect import detect_langs

s1 = "本篇博客主要介紹兩款語言探測工具撕瞧,用于區(qū)分文本到底是什么語言陵叽,"
s2 = 'We are pleased to introduce today a new technology'
print(detect(s1))
print(detect(s2))
print(detect_langs(s3))    # detect_langs()輸出探測出的所有語言類型及其所占的比例

輸出結(jié)果如下: 注:語言類型主要參考的是ISO 639-1語言編碼標(biāo)準(zhǔn),詳見ISO 639-1百度百科

跟上一個(gè)語言檢測比較丛版,準(zhǔn)確率低巩掺,效率高。

4. phone 中國手機(jī)歸屬地查詢: ls0f/phone

已集成到 python package cocoNLP中页畦,歡迎試用

from phone import Phone
p  = Phone()
p.find(18100065143)
#return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}

支持號(hào)段: 13*,15*,18*,14[5,7],17[0,6,7,8]

記錄條數(shù): 360569 (updated:2017年4月)

作者提供了數(shù)據(jù)phone.dat 方便非python用戶Load數(shù)據(jù)胖替。

5. phone國際手機(jī)、電話歸屬地查詢:AfterShip/phone

npm install phone

import phone from 'phone';
phone('+852 6569-8900'); // return ['+85265698900', 'HKG']
phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根據(jù)名字判斷性別:observerss/ngender 基于樸素貝葉斯計(jì)算的概率

pip install ngender

>>> import ngender
>>> ngender.guess('趙本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

7. 抽取email的正則表達(dá)式

已集成到 python package cocoNLP中豫缨,歡迎試用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'
emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_number的正則表達(dá)式

已集成到 python package cocoNLP中独令,歡迎試用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'
phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取身份證號(hào)的正則表達(dá)式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'
IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名語料庫: wainshine/Chinese-Names-Corpus

人名抽取功能 python package cocoNLP,歡迎試用

中文(現(xiàn)代好芭、古代)名字燃箭、日文名字、中文的姓和名舍败、稱呼(大姨媽招狸、小姨媽等)、英文->中文名字(李約翰)邻薯、成語詞典

(可用于中文分詞裙戏、姓名識(shí)別)

11. 中文縮寫庫:github

全國人大: 全國/n 人民/n 代表大會(huì)/n
中國: 中華人民共和國/ns
女網(wǎng)賽: 女子/n 網(wǎng)球/n 比賽/vn

12. 漢語拆字詞典:kfcd/chaizi

漢字      拆法 (一)  拆法 (二)  拆法 (三)
拆       手 斥     扌 斥     才 斥

13. 詞匯情感值:rainarch/SentiBridge

山泉水     充沛      0.400704566541  0.370067395878
視野              寬廣      0.305762728932  0.325320747491
大峽谷     驚險(xiǎn)      0.312137906517  0.378594957281

14. 中文詞庫、停用詞弛说、敏感詞 dongxiexidian/Chinese

此package的敏感詞庫分類更細(xì):

反動(dòng)詞庫挽懦, 敏感詞庫表統(tǒng)計(jì)暴恐詞庫木人, 民生詞庫信柿, 色情詞庫

15. 漢字轉(zhuǎn)拼音:mozillazg/python-pinyin

文本糾錯(cuò)會(huì)用到

16. 中文繁簡體互轉(zhuǎn):skydark/nstools

17. 英文模擬中文發(fā)音引擎 funny chinese text to speech enginee:tinyfool/ChineseWithEnglish

say wo i ni
#說:我愛你

相當(dāng)于用英文音標(biāo)冀偶,模擬中文發(fā)音。

18. 汪峰歌詞生成器:phunterlau/wangfeng-rnn

我在這里中的夜里
就像一場是一種生命的意旪
就像我的生活變得在我一樣
可我們這是一個(gè)知道
我只是一天你會(huì)怎嗎

19. 同義詞庫渔嚷、反義詞庫进鸠、否定詞庫:guotong1988/chinese_dictionary

20. 無空格英文串分割、抽取單詞:wordninja

>>> import wordninja
>>> wordninja.split('derekanderson')
['derek', 'anderson']
>>> wordninja.split('imateapot')
['im', 'a', 'teapot']

21. IP地址正則表達(dá)式:

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 騰訊QQ號(hào)正則表達(dá)式:

[1-9]([0-9]{5,11})

23. 國內(nèi)固話號(hào)碼正則表達(dá)式:

[0-9-()()]{7,18}

24. 用戶名正則表達(dá)式:

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽車品牌形病、汽車零件相關(guān)詞匯:

見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 時(shí)間抽瓤湍辍:

已集成到 python package cocoNLP中,歡迎試用

在2016年6月7日9:44執(zhí)行測試漠吻,結(jié)果如下

Hi量瓜,all。下周一下午三點(diǎn)開會(huì)

>> 2016-06-13 15:00:00-false

周一開會(huì)

>> 2016-06-13 00:00:00-true

下下周一開會(huì)

>> 2016-06-20 00:00:00-true

java version

python version

27. 各種中文詞向量: github repo

中文詞向量大全

28. 公司名字大全: github repo

29. 古詩詞庫: github repo 更全的古詩詞庫

30. THU整理的詞庫: link

已整理到本repo的data文件夾中.

IT詞庫途乃、財(cái)經(jīng)詞庫绍傲、成語詞庫、地名詞庫耍共、歷史名人詞庫烫饼、詩詞詞庫、醫(yī)學(xué)詞庫试读、飲食詞庫杠纵、法律詞庫、汽車詞庫钩骇、動(dòng)物詞庫

31. 中文聊天語料 link

該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料

32. 中文謠言數(shù)據(jù): github

該數(shù)據(jù)文件中比藻,每一行為一條json格式的謠言數(shù)據(jù),字段釋義如下: rumorCode: 該條謠言的唯一編碼倘屹,可以通過該編碼直接訪問該謠言舉報(bào)頁面韩容。 title: 該條謠言被舉報(bào)的標(biāo)題內(nèi)容 informerName: 舉報(bào)者微博名稱 informerUrl: 舉報(bào)者微博鏈接 rumormongerName: 發(fā)布謠言者的微博名稱 rumormongerUr: 發(fā)布謠言者的微博鏈接 rumorText: 謠言內(nèi)容 visitTimes: 該謠言被訪問次數(shù) result: 該謠言審查結(jié)果 publishTime: 該謠言被舉報(bào)時(shí)間

33. 情感波動(dòng)分析:github

詞庫已整理到本repo的data文件夾中.

本repo項(xiàng)目是一個(gè)通過與人對話獲得其情感值波動(dòng)圖譜, 內(nèi)用詞庫在data文件夾中.

34. 中文問答數(shù)據(jù)集鏈接 提取碼: 2dva

35. 句子、QA相似度匹配:MatchZoo github

文本相似度匹配算法的集合唐瀑,包含多個(gè)深度學(xué)習(xí)的方法群凶,值得嘗試。

36. bert資源:

  • bert論文中文翻譯: link
  • bert原作者的slides: link 提取碼: iarj

  • 文本分類實(shí)踐: github

  • bert tutorial文本分類教程: github

  • bert pytorch實(shí)現(xiàn): github

  • bert用于中文命名實(shí)體識(shí)別 tensorflow版本: github

  • BERT生成句向量哄辣,BERT做文本分類请梢、文本相似度計(jì)算github

  • bert 基于 keras 的封裝分類標(biāo)注框架 Kashgari,幾分鐘即可搭建一個(gè)分類或者序列標(biāo)注模型: github

  • bert力穗、ELMO的圖解: github

  • BERT: Pre-trained models and downstream applications: github

37. Texar - Toolkit for Text Generation and Beyond: github

  • 基于Tensorflow的開源工具包毅弧,旨在支持廣泛的機(jī)器學(xué)習(xí),特別是文本生成任務(wù)当窗,如機(jī)器翻譯够坐、對話、摘要、內(nèi)容處置元咙、語言建模等

38. 中文事件抽忍萦啊: github

  • 中文復(fù)合事件抽取,包括條件事件庶香、因果事件甲棍、順承事件、反轉(zhuǎn)事件等事件抽取赶掖,并形成事理圖譜感猛。

39. cocoNLP: github

人名、地址奢赂、郵箱陪白、手機(jī)號(hào)、手機(jī)歸屬地 等信息的抽取膳灶,rake短語抽取算法拷泽。

pip install cocoNLP

>>> from cocoNLP.extractor import extractor >>> ex = extractor() >>> text = '急尋特朗普,男孩袖瞻,于2018年11月27號(hào)11時(shí)在陜西省安康市漢濱區(qū)走失。丟失發(fā)型短發(fā)拆吆,...如有線索聋迎,請迅速與警方聯(lián)系:18100065143,132-6156-2938枣耀,baizhantang@sina.com.cn 和yangyangfuture at gmail dot com' # 抽取郵箱 >>> emails = ex.extract_email(text) >>> print(emails) ['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn'] # 抽取手機(jī)號(hào) >>> cellphones = ex.extract_cellphone(text,nation='CHN') >>> print(cellphones) ['18100065143', '13261562938'] # 抽取手機(jī)歸屬地霉晕、運(yùn)營商 >>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones] >>> print(cell_locs) cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}] # 抽取地址信息 >>> locations = ex.extract_locations(text) >>> print(locations) ['陜西省安康市漢濱區(qū)', '安康市漢濱區(qū)', '漢濱區(qū)'] # 抽取時(shí)間點(diǎn) >>> times = ex.extract_time(text) >>> print(times) time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"} # 抽取人名 >>> name = ex.extract_name(text) >>> print(name) 特朗普

40. 國內(nèi)電話號(hào)碼正則匹配(三大運(yùn)營商+虛擬等): github

41. 清華大學(xué)XLORE:中英文跨語言百科知識(shí)圖譜: link
上述鏈接中包含了所有實(shí)體及關(guān)系的TTL文件,更多數(shù)據(jù)將在近期發(fā)布捞奕。 概念牺堰,實(shí)例,屬性和上下位關(guān)系數(shù)目

百度 中文維基 英文維基 總數(shù)
概念數(shù)量 32,009 150,241 326,518 508,768
實(shí)例數(shù)量 1,629,591 640,622 1,235,178 3,505,391
屬性數(shù)量 157,370 45,190 26,723 229.283
InstanceOf 7,584,931 1,449,925 3,032,515 12,067,371
SubClassOf 2,784 191,577 555,538 749,899

跨語言連接(概念/實(shí)例)

百度 中文維基 英文維基
百度 - 10,216/336,890 4,846/303,108
中文維基 10,216/336,890 - 28,921/454,579
英文維基 4,846/303,108 28,921/454,579 -

42. 清華大學(xué)人工智能技術(shù)系列報(bào)告: link 每年會(huì)出AI領(lǐng)域相關(guān)的報(bào)告颅围,內(nèi)容包含

  • 自然語言處理 link
  • 知識(shí)圖譜 link
  • 數(shù)據(jù)挖掘 link
  • 自動(dòng)駕駛 link
  • 機(jī)器翻譯 link
  • 區(qū)塊鏈 link
  • 機(jī)器人 link
  • 計(jì)算機(jī)圖形學(xué) link
  • 3D打印 link
  • 人臉識(shí)別 link
  • 人工智能芯片 link
  • 等等

43.自然語言生成方面:

44.:
jiebahanlp就不必介紹了吧筏养。

45.NLP太難了系列: github

  • 來到楊過曾經(jīng)生活過的地方,小龍女動(dòng)情地說:“我也想過過過兒過過的生活常拓〗ト埽”
  • 來到兒子等校車的地方,鄧超對孫儷說:“我也想等等等等等過的那輛車弄抬【シ”
  • 趙敏說:我也想控忌忌己不想無忌。
  • 你也想犯范范范瑋琪犯過的錯(cuò)嗎
  • 對敘打擊是一次性行為?

46.自動(dòng)對聯(lián)數(shù)據(jù)及機(jī)器人:
70萬對聯(lián)數(shù)據(jù) link
代碼 link

上聯(lián) 下聯(lián)
殷勤怕負(fù)三春意 瀟灑難書一字愁
如此清秋何吝酒 這般明月不須錢

47.用戶名黑名單列表: github
包含了用戶名禁用列表拖陆,比如: link

administrator
administration
autoconfig
autodiscover
broadcasthost
domain
editor
guest
host
hostmaster
info
keybase.txt
localdomain
localhost
master
mail
mail0
mail1

48.罪名法務(wù)名詞及分類模型: github

包含856項(xiàng)罪名知識(shí)圖譜, 基于280萬罪名訓(xùn)練庫的罪名預(yù)測,基于20W法務(wù)問答對的13類問題分類與法律資訊問答功能

49.微信公眾號(hào)語料: github

3G語料弛槐,包含部分網(wǎng)絡(luò)抓取的微信公眾號(hào)的文章,已經(jīng)去除HTML慕蔚,只包含了純文本丐黄。每行一篇,是JSON格式孔飒,name是微信公眾號(hào)名字灌闺,account是微信公眾號(hào)ID,title是題目坏瞄,content是正文

50.cs224n深度學(xué)習(xí)自然語言處理課程:link

  • 課程中模型的pytorch實(shí)現(xiàn) link
  • 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程 link

51.中文手寫漢字識(shí)別:github

52.中文自然語言處理 語料/數(shù)據(jù)集:github
競品:THUOCL(THU Open Chinese Lexicon)中文詞庫

53.變量命名神器:github link

54.分詞語料庫+代碼:百度網(wǎng)盤鏈接

55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein: link

56. 任務(wù)型對話英文數(shù)據(jù)集: github 【最全任務(wù)型對話數(shù)據(jù)集】主要介紹了一份任務(wù)型對話數(shù)據(jù)集大全桂对,這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對話領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外鸠匀,為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò)蕉斜,我們以Leaderboard的形式給出了幾個(gè)數(shù)據(jù)集上的State-of-the-art實(shí)驗(yàn)結(jié)果。

57. ASR 語音數(shù)據(jù)集 + 基于深度學(xué)習(xí)的中文語音識(shí)別系統(tǒng): github

58. 笑聲檢測器: github

59. Microsoft多語言數(shù)字/單位/如日期時(shí)間識(shí)別包: [github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua 中華新華字典數(shù)據(jù)庫及api缀棍,包括常用歇后語宅此、成語、詞語和漢字 github

61. 文檔圖譜自動(dòng)生成 github

  • TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method爬范。輸入一篇文檔父腕,將文檔進(jìn)行關(guān)鍵信息提取,進(jìn)行結(jié)構(gòu)化青瀑,并最終組織成圖譜組織形式璧亮,形成對文章語義信息的圖譜化展示

62. SpaCy 中文模型 github

  • 包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的斥难,如果要適配中文枝嘶,可能需要使用spacy中文模型。

63. Common Voice語音識(shí)別數(shù)據(jù)集新版 link

  • 包括來自42,000名貢獻(xiàn)者超過1,400小時(shí)的語音樣本哑诊,涵github

64. 神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 pytorch github

  • 暫不支持中文

65. 基于bert的命名實(shí)體識(shí)別 pytorch github

  • 暫不支持中文

66. 關(guān)鍵詞(Keyphrase)抽取包 pke github
pke: an open source python-based keyphrase extraction toolkit

  • 暫不支持中文群扶,我于近期對其進(jìn)行修改,使其適配中文镀裤。 請關(guān)注我的github動(dòng)態(tài)穷当,謝謝!

67. 基于醫(yī)療領(lǐng)域知識(shí)圖譜的問答系統(tǒng) github

68. 基于依存句法與語義角色標(biāo)注的事件三元組抽取 github

69. 依存句法分析4萬句高質(zhì)量標(biāo)注數(shù)據(jù) by 蘇州大學(xué)漢語依存樹庫(SUCDT)
Homepage 數(shù)據(jù)下載詳見homepage底部淹禾,需要簽署協(xié)議馁菜,需要郵件接收解壓密碼。

70. cnocr:用來做中文OCR的Python3包铃岔,自帶了訓(xùn)練好的識(shí)別模型 github

71. 中文人物關(guān)系知識(shí)圖譜項(xiàng)目 github

  • 中文人物關(guān)系圖譜構(gòu)建
  • 基于知識(shí)庫的數(shù)據(jù)回標(biāo)
  • 基于遠(yuǎn)程監(jiān)督與bootstrapping方法的人物關(guān)系抽取
  • 基于知識(shí)圖譜的知識(shí)問答等應(yīng)用

72. 中文nlp競賽項(xiàng)目及代碼匯總 github

  • 文本生成汪疮、文本摘要:Byte Cup 2018 國際機(jī)器學(xué)習(xí)競賽
  • 知識(shí)圖譜:瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識(shí)圖譜大賽
  • 視頻識(shí)別 問答:2018之江杯全球人工智能大賽:視頻識(shí)別&問答

73. 中文字符數(shù)據(jù) github

  • 簡/繁體漢字筆順
  • 矢量筆畫

74. speech-aligner: 從“人聲語音”及其“語言文本”峭火,產(chǎn)生音素級(jí)別時(shí)間對齊標(biāo)注的工具 github

75. AmpliGraph: 知識(shí)圖譜表示學(xué)習(xí)(Python)庫:知識(shí)圖譜概念鏈接預(yù)測 github

  • 埃森哲出品,目前尚不支持中文

76. Scattertext 文本可視化(python) github

  • 很好用的工具包智嚷,簡單修改后可支持中文
  • 能否分析出某個(gè)類別的文本與其他文本的用詞差異

77. 語言/知識(shí)表示工具:BERT & ERNIE github

  • 百度出品卖丸,ERNIE也號(hào)稱在多項(xiàng)nlp任務(wù)中擊敗了bert

78. 中文對比英文自然語言處理NLP的區(qū)別綜述 link

79. Synonyms中文近義詞工具包 github

  • Synonyms 中文近義詞工具包,可以用于自然語言理解的很多任務(wù):文本對齊盏道,推薦算法稍浆,相似度計(jì)算,語義偏移猜嘱,關(guān)鍵字提取忽匈,概念提取预侯,自動(dòng)摘要附鸽,搜索引擎等

80. HarvestText領(lǐng)域自適應(yīng)文本挖掘工具(新詞發(fā)現(xiàn)-情感分析-實(shí)體鏈接等) github

81. word2word:(Python)方便易用的多語言詞-詞對集:62種語言/3,564個(gè)多語言對 github

82. 語音識(shí)別語料生成工具:從具有音頻/字幕的在線視頻創(chuàng)建自動(dòng)語音識(shí)別(ASR)語料庫 github

83. ASR語音大辭典/詞典: github

84. 構(gòu)建醫(yī)療實(shí)體識(shí)別的模型昨稼,包含詞典和語料標(biāo)注,基于python: github

85. 單文檔非監(jiān)督的關(guān)鍵詞抽嚷劢浴: github

86. Kashgari中使用gpt-2語言模型 github

87. 開源的金融投資數(shù)據(jù)提取工具 github

88. 文本自動(dòng)摘要庫TextTeaser: 僅支持英文 github

89. 人民日報(bào)語料處理工具集 github

90. 一些關(guān)于自然語言的基本模型 github

91. 基于14W歌曲知識(shí)庫的問答嘗試益楼,功能包括歌詞接龍,已知歌詞找歌曲以及歌曲歌手歌詞三角關(guān)系的問答 github

92. 基于Siamese bilstm模型的相似句子判定模型,提供訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集 github

  • 提供了10萬個(gè)訓(xùn)練樣本

93. 用Transformer編解碼模型實(shí)現(xiàn)的根據(jù)Hacker News文章標(biāo)題自動(dòng)生成評論 github

94. 用BERT進(jìn)行序列標(biāo)記和文本分類的模板代碼 github

95. LitBank:NLP數(shù)據(jù)集——支持自然語言處理和計(jì)算人文學(xué)科任務(wù)的100部帶標(biāo)記英文小說語料 github

96. 百度開源的基準(zhǔn)信息抽取系統(tǒng) github

97. 虛假新聞數(shù)據(jù)集 fake news corpus github

98. Facebook: LAMA語言模型分析点晴,提供Transformer-XL/BERT/ELMo/GPT預(yù)訓(xùn)練語言模型的統(tǒng)一訪問接口 github

  • 用于分析預(yù)訓(xùn)練語言模型中包含的事實(shí)和常識(shí)知識(shí)的探針感凤。

99. CommonsenseQA:面向常識(shí)的英文QA挑戰(zhàn) link

100. 中文知識(shí)圖譜資料、數(shù)據(jù)及工具 github

101. 各大公司內(nèi)部里大牛分享的技術(shù)文檔 PDF 或者 PPT github

102. 自然語言生成SQL語句(英文) github

103. 中文NLP數(shù)據(jù)增強(qiáng)(EDA)工具 github

  • 英文NLP數(shù)據(jù)增強(qiáng)工具 github
  • 一鍵中文數(shù)據(jù)增強(qiáng)工具 github

104. 基于醫(yī)藥知識(shí)圖譜的智能問答系統(tǒng) github

105. 京東商品知識(shí)圖譜 github

  • 基于京東網(wǎng)站的1300種商品上下級(jí)概念粒督,約10萬商品品牌陪竿,約65萬品牌銷售關(guān)系,商品描述維度等知識(shí)庫坠陈,基于該知識(shí)庫可以支持商品屬性庫構(gòu)建,商品銷售問答捐康,品牌物品生產(chǎn)等知識(shí)查詢服務(wù)仇矾,也可用于情感分析等下游應(yīng)用.

106. 基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目 github

  • 基于mongodb存儲(chǔ)的軍事領(lǐng)域知識(shí)圖譜問答項(xiàng)目,包括飛行器解总、太空裝備等8大類贮匕,100余小類,共計(jì)5800項(xiàng)的軍事武器知識(shí)庫花枫,該項(xiàng)目不使用圖數(shù)據(jù)庫進(jìn)行存儲(chǔ)刻盐,通過jieba進(jìn)行問句解析,問句實(shí)體項(xiàng)識(shí)別劳翰,基于查詢模板完成多類問題的查詢敦锌,主要是提供一種工業(yè)界的問答思想demo。

107. 基于遠(yuǎn)監(jiān)督的中文關(guān)系抽取 github

108. 語音情感分析 github

109. 中文ULMFiT 情感分析 文本分類 語料及模型 github

110. 一個(gè)拍照做題程序佳簸。輸入一張包含數(shù)學(xué)計(jì)算題的圖片乙墙,輸出識(shí)別出的數(shù)學(xué)計(jì)算式以及計(jì)算結(jié)果 github

111. 世界各國大規(guī)模人名庫 github

112. 一個(gè)利用有趣中文語料庫 qingyun 訓(xùn)練出來的中文聊天機(jī)器人 github

  • 使用了青云語料10萬語料,本repo中也有該語料的鏈接

113. 中文聊天機(jī)器人, 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人听想,可以用于智能客服腥刹、在線問答、智能聊天等場景 github

  • 根據(jù)自己的語料訓(xùn)練出自己想要的聊天機(jī)器人汉买,可以用于智能客服衔峰、在線問答、智能聊天等場景蛙粘。加入seqGAN版本垫卤。
  • repo中提供了一份質(zhì)量不太高的語料

114. 省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注 github

  • 國家統(tǒng)計(jì)局中的省市區(qū)鎮(zhèn)行政區(qū)劃數(shù)據(jù)帶拼音標(biāo)注,高德地圖的坐標(biāo)和行政區(qū)域邊界范圍组题,在瀏覽器里面運(yùn)行js代碼采集的2019年發(fā)布的最新數(shù)據(jù)葫男,含采集源碼,提供csv格式數(shù)據(jù)崔列,支持csv轉(zhuǎn)成省市區(qū)多級(jí)聯(lián)動(dòng)js代碼
  • 坐標(biāo)梢褐、邊界范圍、名稱赵讯、拼音盈咳、行政區(qū)等多級(jí)地址

115. 教育行業(yè)新聞 自動(dòng)文摘 語料庫 github

116. 開放了對話機(jī)器人、知識(shí)圖譜边翼、語義理解鱼响、自然語言處理工具及數(shù)據(jù) github

117. 中文知識(shí)圖譜:基于百度百科中文頁面组底,抽取三元組信息丈积,構(gòu)建中文知識(shí)圖譜 github

118. masr: 中文語音識(shí)別,提供預(yù)訓(xùn)練模型债鸡,高識(shí)別率 github

119. Python音頻數(shù)據(jù)增廣庫 github

120. 中文全詞覆蓋BERT及兩份閱讀理解數(shù)據(jù) github

  • DRCD數(shù)據(jù)集由中國臺(tái)灣臺(tái)達(dá)研究院發(fā)布江滨,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集厌均。
  • CMRC 2018數(shù)據(jù)集是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)唬滑。根據(jù)給定問題,系統(tǒng)需要從篇章中抽取出片段作為答案棺弊,形式與SQuAD相同晶密。

121. ConvLab:開源多域端到端對話系統(tǒng)平臺(tái) github

122. 中文自然語言處理數(shù)據(jù)集 github

123. 基于最新版本rasa搭建的對話系統(tǒng) github

124. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取 github

  • Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實(shí)體及關(guān)系抽取,2019語言與智能技術(shù)競賽信息抽取任務(wù)解決方案模她。Schema based Knowledge Extraction, SKE 2019

125. 一個(gè)小型的證券知識(shí)圖譜/知識(shí)庫 github

126. 復(fù)盤所有NLP比賽的TOP方案 github

127. OpenCLaP:多領(lǐng)域開源中文預(yù)訓(xùn)練語言模型倉庫 github 包含如下語言模型及百度百科數(shù)據(jù)

  • 民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
  • 刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
  • 百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB

128. UER:基于不同語料稻艰、編碼器、目標(biāo)任務(wù)的中文預(yù)訓(xùn)練模型倉庫(包括BERT侈净、GPT连锯、ELMO等) github

  • 基于PyTorch的預(yù)訓(xùn)練模型框架归苍,支持對編碼器,目標(biāo)任務(wù)等進(jìn)行任意的組合运怖,從而復(fù)現(xiàn)已有的預(yù)訓(xùn)練模型拼弃,或在已有的預(yù)訓(xùn)練模型上進(jìn)一步改進(jìn)∫≌梗基于UER訓(xùn)練了不同性質(zhì)的預(yù)訓(xùn)練模型(不同語料吻氧、編碼器、目標(biāo)任務(wù))咏连,構(gòu)成了中文預(yù)訓(xùn)練模型倉庫盯孙,適用于不同的場景。

129. 中文自然語言處理向量合集 github

  • 包括字向量,拼音向量,詞向量,詞性向量,依存關(guān)系向量.共5種類型的向量

130. 基于金融-司法領(lǐng)域(兼有閑聊性質(zhì))的聊天機(jī)器人 github

  • 其中的主要模塊有信息抽取祟滴、NLU振惰、NLG、知識(shí)圖譜等垄懂,并且利用Django整合了前端展示,目前已經(jīng)封裝了nlp和kg的restful接口

131. g2pC:基于上下文的漢語讀音自動(dòng)標(biāo)記模塊 github

132. Zincbase 知識(shí)圖譜構(gòu)建工具包 github

133. 詩歌質(zhì)量評價(jià)/細(xì)粒度情感詩歌語料庫 github

134. 快速轉(zhuǎn)化「中文數(shù)字」和「阿拉伯?dāng)?shù)字」 github

  • 中文骑晶、阿拉伯?dāng)?shù)字互轉(zhuǎn)
  • 中文與阿拉伯?dāng)?shù)字混合的情況,在開發(fā)中

135. 百度知道問答語料庫 github

  • 超過580萬的問題草慧,938萬的答案桶蛔,5800個(gè)分類標(biāo)簽÷龋基于該問答語料庫仔雷,可支持多種應(yīng)用,如閑聊問答舔示,邏輯挖掘

136. 基于知識(shí)圖譜的問答系統(tǒng) github

  • BERT做命名實(shí)體識(shí)別和句子相似度碟婆,分為online和outline模式

137. jieba_fast 加速版的jieba github

  • 使用cpython重寫了jieba分詞庫中計(jì)算DAG和HMM中的vitrebi函數(shù),速度得到大幅提升

138. 正則表達(dá)式教程 github

139. 中文閱讀理解數(shù)據(jù)集 github

140. 基于BERT等最新語言模型的抽取式摘要提取 github

141. Python利用深度學(xué)習(xí)進(jìn)行文本摘要的綜合指南 link

142. 知識(shí)圖譜深度學(xué)習(xí)相關(guān)資料整理 github

  • 深度學(xué)習(xí)與自然語言處理惕稻、知識(shí)圖譜竖共、對話系統(tǒng)。包括知識(shí)獲取缩宜、知識(shí)庫構(gòu)建肘迎、知識(shí)庫應(yīng)用三大技術(shù)研究與應(yīng)用

143. 維基大規(guī)模平行文本語料 github

  • 85種語言甥温、1620種語言對锻煌、135M對照句

144. StanfordNLP 0.2.0:純Python版自然語言處理包 link

145. NeuralNLP-NeuralClassifier:騰訊開源深度學(xué)習(xí)文本分類工具 github

146. 端到端的封閉域?qū)υ捪到y(tǒng) github

147. 中文命名實(shí)體識(shí)別:NeuroNER vs. BertNER github

148. 新聞事件線索抽取 github

  • An exploration for Eventline (important news Rank organized by pulic time),針對某一事件話題下的新聞報(bào)道集合姻蚓,通過使用docrank算法宋梧,對新聞報(bào)道進(jìn)行重要性識(shí)別,并通過新聞報(bào)道時(shí)間挑選出時(shí)間線上重要新聞

149. 2019年百度的三元組抽取比賽狰挡,“科學(xué)空間隊(duì)”源碼(第7名) github

150. 基于依存句法的開放域文本知識(shí)三元組抽取和知識(shí)庫構(gòu)建 github

151. 中文的GPT2訓(xùn)練代碼 github

152. ML-NLP - 機(jī)器學(xué)習(xí)(Machine Learning)捂龄、NLP面試中呈吞危考到的知識(shí)點(diǎn)和代碼實(shí)現(xiàn) github

153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標(biāo)注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查 github

154. XLM:Facebook的跨語言預(yù)訓(xùn)練語言模型 github

155. 用基于BERT的微調(diào)和特征提取方法來進(jìn)行知識(shí)圖譜百度百科人物詞條屬性抽取 github

156. 中文自然語言處理相關(guān)的開放任務(wù),數(shù)據(jù)集, 以及當(dāng)前最佳結(jié)果 github

157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動(dòng)對對聯(lián)系統(tǒng) github

158. 抽象知識(shí)圖譜倦沧,目前規(guī)模50萬唇撬,支持名詞性實(shí)體、狀態(tài)性描述展融、事件性動(dòng)作進(jìn)行抽象 github

159. MiningZhiDaoQACorpus - 580萬百度知道問答數(shù)據(jù)挖掘項(xiàng)目 github

160. brat rapid annotation tool: 序列標(biāo)注工具 link

161. 大規(guī)模中文知識(shí)圖譜數(shù)據(jù)::1.4億實(shí)體 github

162. 數(shù)據(jù)增強(qiáng)在機(jī)器翻譯及其他nlp任務(wù)中的應(yīng)用及效果 link

163. allennlp閱讀理解:支持多種數(shù)據(jù)和模型 github

164. PDF表格數(shù)據(jù)提取工具 github

165. Graphbrain:AI開源軟件庫和科研工具窖认,目的是促進(jìn)自動(dòng)意義提取和文本理解以及知識(shí)的探索和推斷 github

166. 簡歷自動(dòng)篩選系統(tǒng) github

167. 基于命名實(shí)體識(shí)別的簡歷自動(dòng)摘要 github

168. 中文語言理解測評基準(zhǔn),包括代表性的數(shù)據(jù)集&基準(zhǔn)模型&語料庫&排行榜 github

169. 樹洞 OCR 文字識(shí)別 github

170. 從包含表格的掃描圖片中識(shí)別表格和文字 github

171. 語聲遷移 github

172. Python口語自然語言處理工具集(英文) github

173. similarity:相似度計(jì)算工具包告希,java編寫 github

  • 用于詞語扑浸、短語、句子燕偶、詞法分析喝噪、情感分析、語義分析等相關(guān)的相似度計(jì)算

174. 海量中文預(yù)訓(xùn)練ALBERT模型 github

175. Transformers 2.0 github

  • 支持TensorFlow 2.0 和 PyTorch 的自然語言處理預(yù)訓(xùn)練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構(gòu)/33種預(yù)訓(xùn)練模型/102種語言

176. 基于大規(guī)模音頻數(shù)據(jù)集Audioset的音頻增強(qiáng) github

177. Poplar:網(wǎng)頁版自然語言標(biāo)注工具 github

178. 圖片文字去除指么,可用于漫畫翻譯 github

179. 186種語言的數(shù)字叫法庫 github

180. Amazon發(fā)布基于知識(shí)的人-人開放領(lǐng)域?qū)υ挃?shù)據(jù)集 github

181. 中文文本糾錯(cuò)模塊代碼 github

182. 繁簡體轉(zhuǎn)換 github

183. Python實(shí)現(xiàn)的多種文本可讀性評價(jià)指標(biāo) github

184. 類似于人名/地名/組織機(jī)構(gòu)名的命名體識(shí)別數(shù)據(jù)集 github

185. 東南大學(xué)《知識(shí)圖譜》研究生課程(資料) github

186. 英文拼寫檢查庫 github

from spellchecker import SpellChecker spell = SpellChecker() # find those words that may be misspelled misspelled = spell.unknown(['something', 'is', 'hapenning', 'here']) for word in misspelled: # Get the one `most likely` answer print(spell.correction(word)) # Get a list of `likely` options print(spell.candidates(word))

187. wwsearch是企業(yè)微信后臺(tái)自研的全文檢索引擎 github

188. CHAMELEON:深度學(xué)習(xí)新聞推薦系統(tǒng)元架構(gòu) github

189. 8篇論文梳理BERT相關(guān)模型進(jìn)展與反思 github

190. DocSearch:免費(fèi)文檔搜索引擎 github

191. LIDA:輕量交互式對話標(biāo)注工具 github

192. aili - the fastest in-memory index in the East 東半球最快并發(fā)索引 github

193. 知識(shí)圖譜車音工作項(xiàng)目 github

194. 自然語言生成資源大全 github

  • 內(nèi)含英文數(shù)據(jù)酝惧、論文、代碼

195. 中日韓分詞庫mecab的Python接口庫 github

196. 中文文本摘要/關(guān)鍵詞提取 github

197. 漢字字符特征提取器 (featurizer)涧尿,提取漢字的特征(發(fā)音特征系奉、字形特征)用做深度學(xué)習(xí)的特征 github

198. 中文生成任務(wù)基準(zhǔn)測評 github

199. 中文縮寫數(shù)據(jù)集 github

200. 中文任務(wù)基準(zhǔn)測評 - 代表性的數(shù)據(jù)集-基準(zhǔn)(預(yù)訓(xùn)練)模型-語料庫-baseline-工具包-排行榜 github

201. PySS3:面向可解釋AI的SS3文本分類器機(jī)器可視化工具 github

202. 中文NLP數(shù)據(jù)集列表 github

203. COPE - 格律詩編輯程序 github

204. doccano:基于網(wǎng)頁的開源協(xié)同多語言文本標(biāo)注工具 github

205. PreNLP:自然語言預(yù)處理庫 github

206. 簡單的簡歷解析器,用來從簡歷中提取關(guān)鍵信息 github

207. 用于中文閑聊的GPT2模型:GPT2-chitchat github

208. 基于檢索聊天機(jī)器人多輪響應(yīng)選擇相關(guān)資源列表(Leaderboards姑廉、Datasets缺亮、Papers) github

209. (Colab)抽象文本摘要實(shí)現(xiàn)集錦(教程 github

210. 詞語拼音數(shù)據(jù) github

211. 高效模糊搜索工具 github

212. NLP數(shù)據(jù)增廣資源集 github

213. 微軟對話機(jī)器人框架 github

214. GitHub Typo Corpus:大規(guī)模GitHub多語言拼寫錯(cuò)誤/語法錯(cuò)誤數(shù)據(jù)集 github

215. TextCluster:短文本聚類預(yù)處理模塊 Short text cluster github

216. 面向語音識(shí)別的中文文本規(guī)范化 github

217. BLINK:最先進(jìn)的實(shí)體鏈接庫 github

218. BertPunc:基于BERT的最先進(jìn)標(biāo)點(diǎn)修復(fù)模型 github

219. Tokenizer:快速、可定制的文本詞條化庫 github

220. 中文語言理解測評基準(zhǔn)桥言,包括代表性的數(shù)據(jù)集萌踱、基準(zhǔn)(預(yù)訓(xùn)練)模型、語料庫号阿、排行榜 github

221. spaCy 醫(yī)學(xué)文本挖掘與信息提取 github

222. NLP任務(wù)示例項(xiàng)目代碼集 github

223. python拼寫檢查庫 github

224. chatbot-list - 行業(yè)內(nèi)關(guān)于智能客服并鸵、聊天機(jī)器人的應(yīng)用和架構(gòu)、算法分享和介紹 github

225. 語音質(zhì)量評價(jià)指標(biāo)(MOSNet, BSSEval, STOI, PESQ, SRMR) github

226. 用138GB語料訓(xùn)練的法文RoBERTa預(yù)訓(xùn)練語言模型 link

227. BERT-NER-Pytorch:三種不同模式的BERT中文NER實(shí)驗(yàn) github

228. 無道詞典 - 有道詞典的命令行版本扔涧,支持英漢互查和在線查詢 github

229. 2019年NLP亮點(diǎn)回顧 download

  • 提取碼: yb6x

230. Chinese medical dialogue data 中文醫(yī)療對話數(shù)據(jù)集 github

231. 最好的漢字?jǐn)?shù)字(中文數(shù)字)-阿拉伯?dāng)?shù)字轉(zhuǎn)換工具 github

232. 基于百科知識(shí)庫的中文詞語多詞義/義項(xiàng)獲取與特定句子詞語語義消歧 github

233. awesome-nlp-sentiment-analysis - 情感分析园担、情緒原因識(shí)別、評價(jià)對象和評價(jià)詞抽取 github

234. LineFlow:面向所有深度學(xué)習(xí)框架的NLP數(shù)據(jù)高效加載器 github

235. 中文醫(yī)學(xué)NLP公開資源整理 github

236. MedQuAD:(英文)醫(yī)學(xué)問答數(shù)據(jù)集 github

237. 將自然語言數(shù)字串解析轉(zhuǎn)換為整數(shù)和浮點(diǎn)數(shù) github

238. Transfer Learning in Natural Language Processing (NLP) youtube

239. 面向語音識(shí)別的中文/英文發(fā)音辭典 github

240. Tokenizers:注重性能與多功能性的最先進(jìn)分詞器 github

241. CLUENER 細(xì)粒度命名實(shí)體識(shí)別 Fine Grained Named Entity Recognition github

242. 基于BERT的中文命名實(shí)體識(shí)別 github

243. 中文謠言數(shù)據(jù)庫 github

244. NLP數(shù)據(jù)集/基準(zhǔn)任務(wù)大列表 github

  • 大多數(shù)為英文數(shù)據(jù)

245. nlp相關(guān)的一些論文及代碼, 包括主題模型枯夜、詞向量(Word Embedding)弯汰、命名實(shí)體識(shí)別(NER)、文本分類(Text Classificatin)湖雹、文本生成(Text Generation)咏闪、文本相似性(Text Similarity)計(jì)算等,涉及到各種與nlp相關(guān)的算法摔吏,基于keras和tensorflow github

246. Python文本挖掘/NLP實(shí)戰(zhàn)示例 github

247. Blackstone:面向非結(jié)構(gòu)化法律文本的spaCy pipeline和NLP模型 github

248. 通過同義詞替換實(shí)現(xiàn)文本“變臉” github

249. 中文 預(yù)訓(xùn)練 ELECTREA 模型: 基于對抗學(xué)習(xí) pretrain Chinese Model github

250. albert-chinese-ner - 用預(yù)訓(xùn)練語言模型ALBERT做中文NER github

251. 基于GPT2的特定主題文本生成/文本增廣 github

252. 開源預(yù)訓(xùn)練語言模型合集 github

253. 多語言句向量包 github

254. 編碼鸽嫂、標(biāo)記和實(shí)現(xiàn):一種可控高效的文本生成方法 github

255. 英文臟話大列表 github

256. attnvis:GPT2纵装、BERT等transformer語言模型注意力交互可視化 github

257. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫,包括11種語言(法語据某、德語橡娄、荷蘭語、俄語癣籽、西班牙語瀑踢、意大利語、土耳其語才避、波斯語橱夭、瑞典語、蒙古語和中文)的語音桑逝、文字轉(zhuǎn)錄及英文譯文 github

258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎(chǔ)棘劣,提供知識(shí)圖譜關(guān)系抽取 中文分詞 詞性標(biāo)注 命名實(shí)體識(shí)別 情感分析 新詞發(fā)現(xiàn) 關(guān)鍵詞 文本摘要 文本聚類等功能 github

259. 用unet實(shí)現(xiàn)對文檔表格的自動(dòng)檢測,表格重建 github

260. NLP事件提取文獻(xiàn)資源列表 github

261. 金融領(lǐng)域自然語言處理研究資源大列表 github

262. CLUEDatasetSearch - 中英文NLP數(shù)據(jù)集:搜索所有中文NLP數(shù)據(jù)集楞遏,附常用英文NLP數(shù)據(jù)集 github

263. medical_NER - 中文醫(yī)學(xué)知識(shí)圖譜命名實(shí)體識(shí)別 github

264. (哈佛)講因果推理的免費(fèi)書 pdf

265. 知識(shí)圖譜相關(guān)學(xué)習(xí)資料/數(shù)據(jù)集/工具資源大列表 github

266. Forte:靈活強(qiáng)大的自然語言處理pipeline工具集 github

267. Python字符串相似性算法庫 github

268. PyLaia:面向手寫文檔分析的深度學(xué)習(xí)工具包 github

269. TextFooler:針對文本分類/推理的對抗文本生成模塊 github

270. Haystack:靈活茬暇、強(qiáng)大的可擴(kuò)展問答(QA)框架 github

271. 中文關(guān)鍵短語抽取工具 github

272. pdf文檔解析相關(guān)工具包

  • pdf生成
    • fdfgen: 能夠自動(dòng)創(chuàng)建pdf文檔,并填寫信息
  • pdf表格解析
    • pdftabextract: 用于OCR識(shí)別后的表格信息解析寡喝,很強(qiáng)大
    • tabula-py: 直接將pdf中的表格信息轉(zhuǎn)換為pandas的dataframe糙俗,有java和python兩種版本代碼
    • pdfx: 自動(dòng)抽取出引用參考文獻(xiàn),并下載對應(yīng)的pdf文件
    • invoice2data: 發(fā)票pdf信息抽取
    • camelot: pdf表格解析
    • pdfplumber: pdf表格解析
    • pdf文檔信息抽取
  • pdf語義分割
    • PubLayNet:能夠劃分段落预鬓、識(shí)別表格巧骚、圖片
  • pdf讀取工具
    • PDFMiner:PDFMiner能獲取頁面中文本的準(zhǔn)確位置,以及字體或行等其他信息格二。它還有一個(gè)PDF轉(zhuǎn)換器劈彪,可以將PDF文件轉(zhuǎn)換成其他文本格式(如HTML)。還有一個(gè)可擴(kuò)展的解析器PDF顶猜,可以用于文本分析以外的其他用途沧奴。
    • PyPDF2:PyPDF 2是一個(gè)python PDF庫,能夠分割长窄、合并滔吠、裁剪和轉(zhuǎn)換PDF文件的頁面。它還可以向PDF文件中添加自定義數(shù)據(jù)挠日、查看選項(xiàng)和密碼疮绷。它可以從PDF檢索文本和元數(shù)據(jù),還可以將整個(gè)文件合并在一起肆资。
    • ReportLab:ReportLab能快速創(chuàng)建PDF 文檔矗愧。經(jīng)過時(shí)間證明的灶芝、超好用的開源項(xiàng)目郑原,用于創(chuàng)建復(fù)雜的唉韭、數(shù)據(jù)驅(qū)動(dòng)的PDF文檔和自定義矢量圖形。它是免費(fèi)的犯犁,開源的属愤,用Python編寫的。該軟件包每月下載5萬多次酸役,是標(biāo)準(zhǔn)Linux發(fā)行版的一部分住诸,嵌入到許多產(chǎn)品中,并被選中為Wikipedia的打印/導(dǎo)出功能提供動(dòng)力涣澡。

273. 中文詞語相似度計(jì)算方法 gihtub

  • 綜合了同義詞詞林?jǐn)U展版與知網(wǎng)(Hownet)的詞語相似度計(jì)算方法贱呐,詞匯覆蓋更多、結(jié)果更準(zhǔn)確入桂。

274. 人民日報(bào)語料庫處理工具集 github

275. stanza:斯坦福團(tuán)隊(duì)NLP工具 github

  • 可處理六十多種語言

276. 一個(gè)大規(guī)模醫(yī)療對話數(shù)據(jù)集 github

  • 包含110萬醫(yī)學(xué)咨詢奄薇,400萬條醫(yī)患對話

277. 新冠肺炎相關(guān)數(shù)據(jù)

  • 新冠及其他類型肺炎中文醫(yī)療對話數(shù)據(jù)集 github
  • 清華大學(xué)等機(jī)構(gòu)的開放數(shù)據(jù)源(COVID-19)github

278. DGL-KE 圖嵌入表示學(xué)習(xí)算法 github

279. nlp-recipes:微軟出品–自然語言處理最佳實(shí)踐和范例 github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個(gè)快速從自然語言文本中提取和識(shí)別關(guān)鍵短語的工具 github

281. 使用GAN生成表格數(shù)據(jù)(僅支持英文) github

282. Google發(fā)布Taskmaster-2自然語言任務(wù)對話數(shù)據(jù)集 github

283. BDCI2019金融負(fù)面信息判定 github

284. 用神經(jīng)網(wǎng)絡(luò)符號(hào)推理求解復(fù)雜數(shù)學(xué)方程 github

285. 粵語/英語會(huì)話雙語語料庫 github

286. 中文ELECTRA預(yù)訓(xùn)練模型 github

287. 面向深度學(xué)習(xí)研究人員的自然語言處理實(shí)例教程 github

288. Parakeet:基于PaddlePaddle的文本-語音合成 github

289. 103976個(gè)英語單詞庫(sql版,csv版抗愁,Excel版)包 github

290. 《海賊王》知識(shí)圖譜 github

291. 法務(wù)智能文獻(xiàn)資源列表 github

292. Datasaur.ai 在線數(shù)據(jù)標(biāo)注工作流管理工具 link

293. (Java)準(zhǔn)確的語音自然語言檢測庫 github

294. 面向各語種/任務(wù)的BERT模型大列表/搜索引擎 link

295. CoVoST:Facebook發(fā)布的多語種語音-文本翻譯語料庫 github

296. 基于預(yù)訓(xùn)練模型的中文關(guān)鍵詞抽取方法 github

297. Fancy-NLP:用于建設(shè)商品畫像的文本知識(shí)挖掘工具 github

298. 基于百度webqa與dureader數(shù)據(jù)集訓(xùn)練的Albert Large QA模型 github

299. BERT/CRF實(shí)現(xiàn)的命名實(shí)體識(shí)別 github

300. ssc, Sound Shape Code, 音形碼 - 基于“音形碼”的中文字符串相似度計(jì)算方法

301. 中文指代消解數(shù)據(jù) github

302. 全面簡便的中文 NLP 工具包 github

303. 中文地址分詞(地址元素識(shí)別與抽饶俚佟),通過序列標(biāo)注進(jìn)行NER github

304. 用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)預(yù)測下一個(gè)詞(模型比較) github

305. 文本機(jī)器學(xué)習(xí)模型最先進(jìn)解釋器庫 github

306. 多文檔摘要數(shù)據(jù)集 github

307. 用記事本渲染3D圖像 github

308. char_featurizer - 漢字字符特征提取工具 github

309. SimBERT - 基于UniLM思想蜘腌、融檢索與生成于一體的BERT模型 github

310. Python音頻特征提取包 github

311. TensorFlow 2 實(shí)現(xiàn)的文本語音合成 github

312. 情感分析技術(shù):讓智能客服更懂人類情感 github

313. TensorFlow Hub最新發(fā)布40+種語言的新語言模型(包括中文) link

314. 漢字字符特征提取器 (featurizer)沫屡,提取漢字的特征(發(fā)音特征、字形特征)用做深度學(xué)習(xí)的特征 github

315. 工業(yè)界常用基于DSSM向量化召回pipeline復(fù)現(xiàn) github

316. 不存在的詞:用GPT-2變體從頭生成新詞及其定義撮珠、例句 github

317. TextAttack:自然語言處理模型對抗性攻擊框架 github

318. 仇恨言論檢測進(jìn)展 link

319. OPUS-100:以英文為中心的多語(100種)平行語料 github

320. 從論文中提取表格數(shù)據(jù) github

321. 讓人人都變得“彬彬有禮”:禮貌遷移任務(wù)——在保留意義的同時(shí)將非禮貌語句轉(zhuǎn)換為禮貌語句沮脖,提供包含1.39M + 實(shí)例的數(shù)據(jù)集 paper and code

322. 用BERT在表格中尋找答案 github

323. PyTorch實(shí)現(xiàn)的BERT事件抽取(ACE 2005 corpus) github

324. 表格問答的系列文章

325. LibKGE:面向可復(fù)現(xiàn)研究的知識(shí)圖譜嵌入庫 github

326. comparxiv :用于比較arXiv上兩提交版本差異的命令 pypi

327. ViSQOL:音頻質(zhì)量感知客觀、完整參考指標(biāo)芯急,分音頻倘潜、語音兩種模式 github

328. 方面情感分析包 github

329. dstlr:非結(jié)構(gòu)化文本可擴(kuò)展知識(shí)圖譜構(gòu)建平臺(tái) github

330. 由文本自動(dòng)生成多項(xiàng)選擇題 github

331. 大規(guī)模跨領(lǐng)域中文任務(wù)導(dǎo)向多輪對話數(shù)據(jù)集及模型CrossWOZ paper & data

332. whatlies:詞向量交互可視化 spacy 工具

333. 支持批并行的LatticeLSTM中文命名實(shí)體識(shí)別 github

334. 基于Albert志于、Electra涮因,用維基百科文本作為上下文的問答引擎 github

335. Deepmatch:針對推薦、廣告和搜索的深度匹配模型庫 github

336. 語音工具合集

  • zhrtvc 好用的中文語音克隆兼中文語音合成系統(tǒng) github
  • aukit 好用的語音處理工具箱伺绽,包含語音降噪养泡、音頻格式轉(zhuǎn)換、特征頻譜生成等模塊 github
  • phkit 好用的音素處理工具箱奈应,包含中文音素澜掩、英文音素、文本轉(zhuǎn)拼音杖挣、文本正則化等模塊 github
  • zhvoice 中文語音語料肩榕,語音更加清晰自然,包含8個(gè)開源數(shù)據(jù)集惩妇,3200個(gè)說話人株汉,900小時(shí)語音筐乳,1300萬字 github

337. 多音字詞典數(shù)據(jù)及代碼 github

338. audio:面向語音行為檢測、二值化乔妈、說話人識(shí)別蝙云、自動(dòng)語音識(shí)別、情感識(shí)別等任務(wù)的音頻標(biāo)注工具 github

339. 大規(guī)模路召、結(jié)構(gòu)化勃刨、中英文雙語的新冠知識(shí)圖譜(COKG-19) link

  • COKG-19包含了505個(gè)概念、393個(gè)屬性股淡、26282個(gè)實(shí)例和32352個(gè)知識(shí)三元組身隐,覆蓋了醫(yī)療、健康唯灵、物資抡医、防控、科研和人物等

340. 132個(gè)知識(shí)圖譜的數(shù)據(jù)集 link

  • 涵蓋常識(shí)早敬、城市忌傻、金融、農(nóng)業(yè)搞监、地理水孩、氣象、社交琐驴、物聯(lián)網(wǎng)俘种、醫(yī)療、娛樂绝淡、生活宙刘、商業(yè)、出行牢酵、科教

341. 42GB的JD客服對話數(shù)據(jù)(CSDD) github

  • 12億句子訓(xùn)練得到的word embedding

342. 合成數(shù)據(jù)生成基準(zhǔn) github

343. 漢字悬包、詞語、成語查詢接口 github

344. 中文問題句子相似度計(jì)算比賽及方案匯總 github

345. Texthero:文本數(shù)據(jù)高效處理包馍乙,包括預(yù)處理布近、關(guān)鍵詞提取、命名實(shí)體識(shí)別丝格、向量空間分析撑瞧、文本可視化等 github

346. SIMPdf:Python寫的簡單PDF文件文字編輯器 github

347. 《配色辭典》數(shù)據(jù)集 github

348. carefree-learn:(PyTorch)表格數(shù)據(jù)集自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)包 github

349. token2index:與PyTorch/Tensorflow兼容的強(qiáng)大輕量詞條索引庫 github

350. 開源對話式信息搜索平臺(tái) github

351. 對聯(lián)數(shù)據(jù) github

  • 700,000 couplets, 超過70萬對對聯(lián)
  • 百度云盤:鏈接 密碼:egpt

352. 基于Pytorch的Bert應(yīng)用,包括命名實(shí)體識(shí)別显蝌、情感分析预伺、文本分類以及文本相似度等 github

353. TaBERT:理解表格數(shù)據(jù)查詢的新模型 paper

354. Dakshina數(shù)據(jù)集:十二種南亞語言的拉丁/本地文字平行數(shù)據(jù)集合 github

355. NLP標(biāo)注平臺(tái)綜述 github

356. 封閉域微調(diào)表格檢測 github

357. 深度學(xué)習(xí)情感文本語音合成 github

358. 中文寫作校對工具 github

359. 用Quora問題對訓(xùn)練的T5問題意譯(Paraphrase) github

360. 情境互動(dòng)多模態(tài)對話挑戰(zhàn)2020(DSTC9 2020) github

361. nlpgnn:圖神經(jīng)網(wǎng)絡(luò)自然語言處理工具箱 github

362. Macadam:以Tensorflow(Keras)和bert4keras為基礎(chǔ),專注于文本分類、序列標(biāo)注和關(guān)系抽取的自然語言處理工具包 github

363. 用新版nlp庫加載17GB+英文維基語料只占用9MB內(nèi)存遍歷速度2-3 Gbit/s github

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末酬诀,一起剝皮案震驚了整個(gè)濱河市脏嚷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌料滥,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艾船,死亡現(xiàn)場離奇詭異葵腹,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)屿岂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門践宴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人爷怀,你說我怎么就攤上這事阻肩。” “怎么了运授?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵烤惊,是天一觀的道長。 經(jīng)常有香客問我吁朦,道長柒室,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任逗宜,我火速辦了婚禮雄右,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纺讲。我一直安慰自己擂仍,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布熬甚。 她就那樣靜靜地躺著祟身,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柄延。 梳的紋絲不亂的頭發(fā)上杨刨,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機(jī)與錄音粟判,去河邊找鬼亿昏。 笑死,一個(gè)胖子當(dāng)著我的面吹牛档礁,可吹牛的內(nèi)容都是我干的角钩。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼递礼!你這毒婦竟也來了惨险?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤脊髓,失蹤者是張志新(化名)和其女友劉穎辫愉,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體将硝,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恭朗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了依疼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痰腮。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖律罢,靈堂內(nèi)的尸體忽然破棺而出膀值,到底是詐尸還是另有隱情,我是刑警寧澤误辑,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布沧踏,位于F島的核電站,受9級(jí)特大地震影響巾钉,放射性物質(zhì)發(fā)生泄漏悦冀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一睛琳、第九天 我趴在偏房一處隱蔽的房頂上張望盒蟆。 院中可真熱鬧,春花似錦师骗、人聲如沸历等。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寒屯。三九已至,卻和暖如春黍少,著一層夾襖步出監(jiān)牢的瞬間寡夹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工厂置, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留菩掏,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓昵济,卻偏偏與公主長得像智绸,于是被迫代替她去往敵國和親野揪。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容