形式語言與自動機理論

概述:

喬姆斯基(Noam Chomky)曾經(jīng)把語言定義為:按照一定規(guī)律構成的句子和字符串的有限或無限的集合。也有把語言看成一個數(shù)學系統(tǒng)....深奧椭豫,看不懂~~~
總之呢耻瑟,描述一種語言大致有如下三種途徑:

  • 窮舉法
  • 文法:每個句子都由嚴格定義的規(guī)則來構造,基于規(guī)則產(chǎn)生句子赏酥。我這里理解為我們語文中的語法規(guī)則喳整。什么主謂賓之類的~~~
  • 自動機法:通過對輸入的句子進行合法性監(jiān)測區(qū)別哪些是語言中的句子,哪些不是今缚。

形式語言

也稱之為代數(shù)語言學算柳,用來精確的描述語言及其結構的手段。
形式語法的定義這里就不闡述了姓言,可以參考wiki瞬项。文法表示為:G=(N,E,P,S)
喬姆斯基將文法分發(fā)分為如下四種:

  • 正則文法
  • 上下文無關文法
  • 上下文相關文法
  • 無約束文法

自動機

理論太難懂了..... 簡單說就是由5組元素組成何荚,字符集囱淋,狀態(tài)集,狀態(tài)轉移餐塘,起始妥衣,末尾。5個要素。M =(E,Q,\delta ,p_0,F)税手,\delta(q,a) = q'

狀態(tài)轉移

文法與自動機之間的關系

文法中的非終結符可以理解為自動機中的字符集蜂筹,終結符理解為狀態(tài)集,狀態(tài)轉移可以用規(guī)則轉換得到芦倒。

自動機的應用:編輯距離:從一個字符串轉變到另一個字符串最少步驟(插入艺挪,刪除,交換兵扬,修改)麻裳。場景應用:拼寫糾錯~。

拼寫糾錯

字母表A上的字母構成的所有合法單詞都是自動機中的一條路徑(有向圖)器钟。即一條路徑上從起始狀態(tài)到終止狀態(tài)連起來的字符串就是合法拼寫津坑。目標:尋找有向圖中編輯距小于給定閾值t的所有路徑。這些路徑就是滿足閾值t的相似拼寫集合傲霸。


當然疆瑰,當數(shù)據(jù)量大的話,為了提高搜索速度狞谱,則會采取剪枝操作乃摹。
cuted(X[m],Y[n]) = \min_{l<i<u}{ ed(X[i],Y[n])}

其中
l = \max(1,n-t),u = \min(m,n+t)
,
t
是設定的最小編輯距離閾值~也就是在子串中已經(jīng)超過閾值了,那就沒必要繼續(xù)往下進行圖搜索了跟衅,回溯進行其他分支孵睬。

編輯距離

例如:ed(hanzhou,hangzhou) = 1伶跷,需要進行一次插入操作掰读。
主要思想:判斷當前是需要插入,交換叭莫,還是修改使得修改次數(shù)最小蹈集。
三種情況:
(1) ed(X{[i+1]},Y{[i+1]}) = ed(X{[i]},Y{[i]}),當X_{i+1} = Y_{i+1}
(2)ed(X{[i+1]},Y{[i+1]}) =1 + min\{ed(X{[i-1]},Y{[i-1]}),ed(X{[i]},Y{[i+1]}),ed(X{[i+1]},Y{[i]})\},當X_{i} = Y_{i+1}雇初,X_{i+1} = Y_{i}執(zhí)行交換操作
(3) ed(X{[i+1]},Y{[i+1]}) =1 + min\{ed(X{[i]},Y{[i]}),ed(X{[i]},Y{[i+1]}),ed(X{[i+1]},Y{[i]})\},其他情況

簡單解析:

min 操作就是判斷前一步驟是修改拢肆,還是刪除,還是插入靖诗。ed(X{[i]},Y{[i+1]})是插入操作郭怪,ed(X{[i+1]},Y{[i]})刪除操作,ed(X{[i]},Y{[i]})則是修改操作。

附頁

常見符號解釋

標記代碼 標記名稱
ROOT 要處理文本的語句
IP 簡單從句
NP 名詞短語
VP 動詞短語
PU 斷句符刊橘,通常是句號鄙才、問號、感嘆號等標點符號
LCP 方位詞短語
PP 介詞短語
CP 由‘的’構成的表示修飾性關系的短語
DNP 由‘的’構成的表示所屬關系的短語
ADVP 副詞短語
ADJP 形容詞短語
DP 限定詞短語
QP 量詞短語
NN 常用名詞
NR 固有名詞
NT 時間名詞
PN 代詞
VV 動詞
VC
CC 表示連詞
VE
VA 表語形容詞
AS 內(nèi)容標記(如:了)
VRD 動補復合詞
CD 表示基數(shù)詞

來源原文:https://blog.csdn.net/lihaitao000/article/details/51812618

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末促绵,一起剝皮案震驚了整個濱河市攒庵,隨后出現(xiàn)的幾起案子嘴纺,更是在濱河造成了極大的恐慌,老刑警劉巖浓冒,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件栽渴,死亡現(xiàn)場離奇詭異,居然都是意外死亡裆蒸,警方通過查閱死者的電腦和手機熔萧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來僚祷,“玉大人,你說我怎么就攤上這事贮缕≌廾眨” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵感昼,是天一觀的道長装哆。 經(jīng)常有香客問我,道長定嗓,這世上最難降的妖魔是什么蜕琴? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮宵溅,結果婚禮上凌简,老公的妹妹穿的比我還像新娘。我一直安慰自己恃逻,他們只是感情好雏搂,可當我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著寇损,像睡著了一般凸郑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上矛市,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天芙沥,我揣著相機與錄音,去河邊找鬼浊吏。 笑死而昨,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的卿捎。 我是一名探鬼主播配紫,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼午阵!你這毒婦竟也來了躺孝?” 一聲冷哼從身側響起享扔,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎植袍,沒想到半個月后惧眠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡于个,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年氛魁,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片厅篓。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡秀存,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出羽氮,到底是詐尸還是另有隱情或链,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布档押,位于F島的核電站澳盐,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏令宿。R本人自食惡果不足惜叼耙,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望粒没。 院中可真熱鬧筛婉,春花似錦、人聲如沸革娄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拦惋。三九已至匆浙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間厕妖,已是汗流浹背首尼。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留言秸,地道東北人软能。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像举畸,于是被迫代替她去往敵國和親查排。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 一抄沮、DecimalFormat的格式化功能 結果輸出: 將35610037.1f結尾的"f"去掉后跋核,重新運行: 結...
    北雁南飛_8854閱讀 1,414評論 0 0
  • 與人消磨時間變成娛樂產(chǎn)物消磨時間 我們下意識的將時間花在游戲或者其他娛樂產(chǎn)物上邊岖瑰,如電視劇,網(wǎng)絡小說砂代。而開始遠離人...
    超極樁閱讀 179評論 0 0