中文分詞工具(LAC) 試用筆記

一浆竭、背景

筆者2年前寫過一篇《PHP使用elasticsearch搜索安裝及分詞方法》的文章浸须,記錄了使用ES的分詞的實(shí)現(xiàn)步驟,最近又需要用到分詞邦泄,在網(wǎng)上發(fā)現(xiàn)一個(gè)百度的中文分詞項(xiàng)目删窒,中文詞法分析(LAC) ,決定使用一番虎韵,并把這次試用通過文章記錄下來易稠,給有需要的朋友一個(gè)參考吧

中文詞法分析LAC 支持Python、C++包蓝、JAVA驶社、Android 用接口調(diào)用,其他語言的話就需要開發(fā)者自己自行封裝了测萎,筆者這次決定使用Python進(jìn)行實(shí)驗(yàn)亡电,在文中也會把相關(guān)代碼給貼出來,給大家作為一個(gè)參考

二 安裝LAC

LAC2.0 的安裝方式非常簡單硅瞧,直接使用pip安裝即可份乒,但是國內(nèi)訪問pip軟件源可能比較慢,因此我們可以用上加速地址,參考命令如下所示

pip3 install lac  -i https://mirror.baidu.com/pypi/simple

命令執(zhí)行完成之后或辖,返回的信息如下所示

image

安裝注意事項(xiàng)

  1. LAC有1.0 和2.0 瘾英,在碼云中顯示的是1.0,但是并沒有特意標(biāo)明颂暇,1.0 的版本安裝過程非常比較麻煩缺谴,安裝過程也容易出錯(cuò),建議大家可以去github查看LAC 2.0的安裝方式
  2. 如果你是windows系統(tǒng)想用wsl去安裝耳鸯,不要使用WSL1.0湿蛔,因?yàn)樗恢С諰AC的依賴組件paddle,也就沒辦法正確安裝LAC了
  3. LAC 安裝需要注意你的Python版本县爬,不能大于3.7,筆者做實(shí)驗(yàn)的時(shí)候使用的Python3.8版本阳啥,結(jié)果報(bào)了如下錯(cuò)誤
image

三、 運(yùn)行DEMO

為了驗(yàn)證是否已經(jīng)將LAC安裝成功财喳,這里筆者運(yùn)行了一下DEMO示例代碼察迟,首先新建了一個(gè)代碼文件lac.py,然后將demo代碼復(fù)制進(jìn)去耳高,代碼如下所示

# -*- coding: utf-8 -*-
from LAC import LAC

# 裝載分詞模型
lac = LAC(mode='seg')

# 單個(gè)樣本輸入卷拘,輸入為Unicode編碼的字符串
text = u"大王叫我來巡山"
seg_result = lac.run(text)
print(seg_result)

# 批量樣本輸入, 輸入為多個(gè)句子組成的list,平均速率會更快
texts = [u"山里有個(gè)廟", u"廟里有個(gè)老和尚跟一個(gè)小和尚"]
seg_result = lac.run(texts)
print(seg_result)

接著使用Python運(yùn)行這個(gè)文件祝高,執(zhí)行命令如下

python lac.py

命令執(zhí)行之后,返回的分詞詞匯標(biāo)注信息如下所示

image

從上面圖片可以看到污筷,LAC已經(jīng)將一段文本進(jìn)行了分詞工闺,說明我們安裝LAC成功,

LAC 除了可以進(jìn)行分詞之外瓣蛀,還可以用來做詞性標(biāo)注與實(shí)體識別,我們接著繼續(xù)運(yùn)行demo代碼陆蟆,筆者首先新建了一個(gè)代碼文件lac2.py,然后將用來做詞性標(biāo)注和實(shí)體識別的demo代碼復(fù)制進(jìn)去惋增,代碼如下所示

from LAC import LAC

# 裝載LAC模型
lac = LAC(mode='lac')

# 單個(gè)樣本輸入叠殷,輸入為Unicode編碼的字符串
text = u"我想漲工資"
lac_result = lac.run(text)

print(lac_result)

# 批量樣本輸入, 輸入為多個(gè)句子組成的list,平均速率更快
texts = [u"湯青松長得好帥", u"我喜歡做安全開發(fā)工程師"]
lac_result = lac.run(texts)

print(lac_result)

接著使用Python運(yùn)行這個(gè)文件诈皿,執(zhí)行命令如下

python lac2.py

命令執(zhí)行之后林束,返回的分詞詞匯標(biāo)注信息如下所示

image

在上圖中我們可以看到,這次LAC不僅返回了分詞結(jié)果稽亏,還返回另外一個(gè)詞匯類型的list壶冒,筆者粗略的核對了一下,基本都能對應(yīng)上截歉,比如筆者的名字標(biāo)識為PER 人名類型胖腾,好帥標(biāo)示為 a 形容詞類型

下面是詞性和專名類別標(biāo)簽集合,其中我們將最常用的4個(gè)專名類別標(biāo)記為大寫的形式:

標(biāo)簽 含義 標(biāo)簽 含義 標(biāo)簽 含義 標(biāo)簽 含義
n 普通名詞 f 方位名詞 s 處所名詞 nw 作品名
nz 其他專名 v 普通動詞 vd 動副詞 vn 名動詞
a 形容詞 ad 副形詞 an 名形詞 d 副詞
m 數(shù)量詞 q 量詞 r 代詞 p 介詞
c 連詞 u 助詞 xc 其他虛詞 w 標(biāo)點(diǎn)符號
PER 人名 LOC 地名 ORG 機(jī)構(gòu)名 TIME 時(shí)間

四、試用感想

LAC是一個(gè)非常不錯(cuò)的分詞工具咸作,并不是用來直接為業(yè)務(wù)提供搜索支持锨阿,而是作為一個(gè)搜索引擎的基礎(chǔ)工具;

比如當(dāng)你想將網(wǎng)站的文章標(biāo)題用于站內(nèi)搜索记罚,使用LAC進(jìn)行了分詞墅诡,分詞之后這些數(shù)據(jù)你還需要額外的存儲,用來作為搜索使用毫胜,因?yàn)長AC只提供分詞功能书斜,所以感覺LAC適合作為分詞搜索引擎的一部分,如果你想用來分詞搜索站內(nèi)信息酵使,倒不如ES的那么方便荐吉。

筆者也好奇LAC項(xiàng)目的適用場景是什么?從LAC項(xiàng)目的產(chǎn)品口中得知回答如下:

LAC適用場景更多是與實(shí)體識別相關(guān)的口渔,比如知識圖譜样屠,知識問答,信息抽取等缺脉,也可以作為其他模型算法的基礎(chǔ)工具痪欲,因?yàn)槠浞衷~粒度是以實(shí)體作為粒度的,同時(shí)兼具實(shí)體識別的效果攻礼,而在搜索引擎中一般使用的分詞粒度會更小一些业踢,或者同時(shí)提供多種粒度,如果要面向搜索的分詞礁扮,還需要用戶自行進(jìn)行微調(diào)模型

作者:湯青松

日期:2020-07-07

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末知举,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子太伊,更是在濱河造成了極大的恐慌雇锡,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件僚焦,死亡現(xiàn)場離奇詭異锰提,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)芳悲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進(jìn)店門立肘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人名扛,你說我怎么就攤上這事赛不。” “怎么了罢洲?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵踢故,是天一觀的道長文黎。 經(jīng)常有香客問我,道長殿较,這世上最難降的妖魔是什么耸峭? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮淋纲,結(jié)果婚禮上劳闹,老公的妹妹穿的比我還像新娘。我一直安慰自己洽瞬,他們只是感情好本涕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著伙窃,像睡著了一般菩颖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上为障,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天晦闰,我揣著相機(jī)與錄音,去河邊找鬼鳍怨。 笑死呻右,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的鞋喇。 我是一名探鬼主播声滥,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼侦香!你這毒婦竟也來了醒串?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤鄙皇,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后仰挣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體伴逸,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年膘壶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了错蝴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,739評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡颓芭,死狀恐怖顷锰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情亡问,我是刑警寧澤官紫,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布肛宋,位于F島的核電站,受9級特大地震影響束世,放射性物質(zhì)發(fā)生泄漏酝陈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一毁涉、第九天 我趴在偏房一處隱蔽的房頂上張望沉帮。 院中可真熱鬧,春花似錦贫堰、人聲如沸穆壕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽喇勋。三九已至,卻和暖如春漫玄,著一層夾襖步出監(jiān)牢的瞬間茄蚯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工睦优, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留渗常,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓汗盘,卻偏偏與公主長得像皱碘,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子隐孽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評論 2 354