構(gòu)建自己的NLU平臺(一)

nlu.png

NLU(自然語言理解)系統(tǒng)是任何現(xiàn)代語音系統(tǒng)的最關(guān)鍵模塊莹妒。如上圖nlu.png所示,第二部分NLP Tool就是我們這篇文章要討論的双揪,我們這里不討論NLU和NLP的區(qū)別动羽,都以NLU指代。

NLU的輸入輸出

  1. 輸入是一段人類語言文本渔期,如上圖1模塊所示
  2. 輸出是一段結(jié)構(gòu)化數(shù)據(jù)(json/xml etc.)运吓,如上圖模塊3所示。主要包含意圖(Intent)和實體(Entities)的抽取結(jié)果

NLU服務(wù)提供商

正如上圖模塊2所指示疯趟,現(xiàn)在很多服務(wù)以Restful API和SDK形式向外提供服務(wù)拘哨。

  • 國外:

    1. Dialogflow 也就是改名前的API.ai (被Google收購的公司)
    2. Wit.ai (被Facebook收購的公司)
    3. LUIS (微軟的服務(wù))
  • 國內(nèi):

    1. UNIT (Baidu服務(wù))
    2. DUI (思必馳服務(wù))

筆者用過Dialogflow做英文,也是支持中文信峻,但是服務(wù)國內(nèi)可能被墻倦青;使用過UNIT做中文;同時了解過其他幾個盹舞,給出建議是:

  • 英文用Dialogflow产镐,免費好用
  • 中文可以直接試試DUI,思必馳的這個開放比較晚踢步,更接近Dialogflow的感覺癣亚,UNIT對于需要大規(guī)模自己訓(xùn)練內(nèi)容的領(lǐng)域來說,泛化效果一般
  • 當然获印,大家自己都可以試試述雾,有好的結(jié)果還望相互交流

自己搭建NLU平臺的原因

  1. 數(shù)據(jù)敏感
    因為前面提到過的平臺都是需要將數(shù)據(jù)上傳訓(xùn)練才能獲得服務(wù),對于數(shù)據(jù)敏感的需求,顯然不能滿足玻孟。
  2. 領(lǐng)域效果差
    開放平臺都是通用NLU平臺唆缴,各個公司的不收費還愿意提供服務(wù)的原因就是想要更多的數(shù)據(jù)上傳來訓(xùn)練自己的模型,那么你們業(yè)務(wù)所在領(lǐng)域的模塊如果是重要的模型黍翎,這些平臺不一定開放已經(jīng)訓(xùn)練好的模型面徽。那么結(jié)果就是你自己需要大量的訓(xùn)練。
  3. 本地支持
    如果你還需要本地NLU匣掸,而不僅僅是聯(lián)網(wǎng)NLU斗忌,顯然也不符合要求。

開源NLU引擎選擇

NLU是一個巨大的輪子旺聚,沒有足夠的資源自己是搞不起的,尋找開源方案是最快速實現(xiàn)商業(yè)模式的方法眶蕉,目前找到兩家:

  1. Rasa nlu
    • 開源時間長砰粹,社區(qū)稍微活躍
    • 官方還不支持中文,但是有童鞋已經(jīng)搭建了中文版造挽,引用并感謝
    • 支持本地部署碱璃,但是是python程序,各種平臺得自己解決饭入,比如android, ios等等
  2. Snips nlu
    • 剛剛開源
    • 官方不支持中文嵌器,也沒有童鞋搞過中文版
    • 支持本地部署,而且跨平臺支持谐丢,是Rust實現(xiàn)

所以結(jié)論

本人NLU小白爽航,想要快速達到效果并可實現(xiàn),得站在巨人肩膀乾忱。所以計劃如下:

  • 基于Rasa nlu來實現(xiàn)
  • 密切關(guān)注Snips nlu
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末讥珍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子窄瘟,更是在濱河造成了極大的恐慌衷佃,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蹄葱,死亡現(xiàn)場離奇詭異氏义,居然都是意外死亡,警方通過查閱死者的電腦和手機图云,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門惯悠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人琼稻,你說我怎么就攤上這事吮螺。” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵鸠补,是天一觀的道長萝风。 經(jīng)常有香客問我,道長紫岩,這世上最難降的妖魔是什么规惰? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮泉蝌,結(jié)果婚禮上歇万,老公的妹妹穿的比我還像新娘。我一直安慰自己勋陪,他們只是感情好贪磺,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著诅愚,像睡著了一般寒锚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上违孝,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天刹前,我揣著相機與錄音,去河邊找鬼雌桑。 笑死喇喉,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的校坑。 我是一名探鬼主播拣技,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼撒踪!你這毒婦竟也來了过咬?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤制妄,失蹤者是張志新(化名)和其女友劉穎掸绞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體耕捞,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡衔掸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了俺抽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敞映。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖磷斧,靈堂內(nèi)的尸體忽然破棺而出振愿,到底是詐尸還是另有隱情捷犹,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布冕末,位于F島的核電站萍歉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏档桃。R本人自食惡果不足惜枪孩,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望藻肄。 院中可真熱鬧蔑舞,春花似錦、人聲如沸嘹屯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽州弟。三九已至蜕窿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間呆馁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工毁兆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留浙滤,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓气堕,卻偏偏與公主長得像纺腊,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子茎芭,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 用到的組件 1揖膜、通過CocoaPods安裝 2、第三方類庫安裝 3梅桩、第三方服務(wù) 友盟社會化分享組件 友盟用戶反饋 ...
    SunnyLeong閱讀 14,615評論 1 180
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,107評論 25 707
  • 問:簡單談?wù)勀銓?HashSet 原理的認識壹粟? 答:HashSet 在存元素時會調(diào)用對象的 hashCode 方法...
    Little丶Jerry閱讀 270評論 0 0
  • 在那樣一個緯度上,有這樣一所房子宿百,每天都可以把腳丫踩進溫?zé)峒氒浀陌咨忱锍孟桑瑤е磺煽肆ι睦祭嗖纫慌糯笮〔灰坏哪_...
    大王老師的日記閱讀 239評論 0 1
  • 文I秋曉 (1) 剛畢業(yè)那會,進入一家貿(mào)易公司工作垦页,說是朝九晚五雀费,但是因為各國時差的關(guān)系所以常常晚上九十點鐘還泡在...
    慕容秋曉閱讀 2,914評論 16 16