Python網(wǎng)絡(luò)爬蟲與信息提取入門<13>

Part28 1三種信息標記形式的比較

下面我們來比較一下三種信息標記形式荠耽。

XML是一種用尖括號標簽表達信息的一種形式慢叨,JSON是用一種有類型的鍵值對標記信息的表達形式轩拨,YAML是用無類型的鍵值對標記信息的表達形式晕翠。

下面我們用一個例子來看一下這三種表達形式的不同:

首先,XML形式,我們這里定義一個人person,還有名字firstName陪白、lastName序厉、還有他的地址所在的城市恨搓、郵編以及他的專業(yè)常拓。如果用XML形式,我們需要對每一個信息域定義相關(guān)的標簽辉浦,并且采用嵌套的形式組織起來弄抬。我們可以看到在整個的文本信息中,其中有效信息所占的比例并不高宪郊,大多數(shù)信息被標簽占用掂恕。

我們再看一下JSON實例:

JSON通過鍵值對的形式來組織信息,我們可以為信息定義相關(guān)的標簽弛槐,fristName懊亡、lastName等等。但是無論是標簽還是后面的值乎串,鍵值之間都是要用雙引號“”來表達他的類型店枣。

最后再看一下YAML:

YAML它是用無類型鍵值對表示的。所以對于我們給出的相關(guān)的信息叹誉,它可以用很簡潔的名字來做相關(guān)的關(guān)聯(lián)鸯两,而形成這樣的鍵值對來表示。

從這三種的直觀感覺來看长豁,大家有什么感受呢钧唐?我們來深刻的比較一下這三種表達形式。

首先XML格式是最早的通用信息標記語言匠襟,嚴格意義上講钝侠,世界上信息標記的多種形式起始于XML格式。它擴展性非常好宅此,但由于存在標簽的起始和結(jié)尾部分机错,所以相當繁瑣。

JSON采用有類型的信息方式來標記信息父腕,它非常適合程序處理弱匪,比如它本身就是用JS語言擴展而來的信息標記形式,甚至JSON格式就是程序代碼的一部分,它相比XML來講,它使用鍵值對比較簡潔萧诫。但是由于需要對每一個鍵和值的信息類型做相關(guān)的考慮和定義斥难,因此它更適合程序員和程序本身對它做相關(guān)的處理,

而YAML采用無類型的鍵值對形式進行表達帘饶,是三種信息方式中文本信息也就是有效信息在所有標記信息中所占比例最高的一種形式哑诊,而且他的可讀性非常好。

在我們實際使用中及刻,Internet上的信息交互與傳遞以及信息表達镀裤,主要采用XML格式,包括我們大家都知道的HTML格式也是XML格式這個類別的缴饭。

JSON主要用在移動應(yīng)用云端和節(jié)點信息通信暑劝。什么時候用JSON格式呢?一般來講JSON格式用在程序?qū)涌谔幚淼牡胤娇怕АSON數(shù)據(jù)在經(jīng)過傳輸之后能夠作為程序代碼的一部分担猛,被程序直接運行。這樣JSON格式中對信息類型的定義才能最大的發(fā)揮作用丢氢。這是JSON格式最大的價值傅联。然而JSON標記格式有一個比較大的缺陷,就是它其中無法體現(xiàn)注釋疚察。因此當你需要在信息中表達一些需要人類關(guān)注的信息的時候蒸走。沒法通過注釋形式來增加進去。

YAML現(xiàn)在主要用于各類系統(tǒng)的配置文件之中貌嫡,因為它既適合人類可讀又適合程序解析载碌。相對來講比其他兩種方式對文本資源的有效利用率更高,應(yīng)用相對比較廣泛衅枫。

在信息發(fā)展的標記的整個過程中,這三種形式構(gòu)成了信息形成和標記的主流方式朗伶。他們的應(yīng)用沒有不同弦撩,但是都反映了信息及信息關(guān)系之間的價值。

Part29 2信息提取的一般方法

下面我們介紹信息提取的一般方法论皆。信息提取指從標記后的信息中益楼,提取所關(guān)注的內(nèi)容之前為我們講過信息標記的三種形式:XML JSON和YAML。無論哪種形式在信息標記中包含信息的一部分点晴。我們關(guān)心的是我們所要提出的信息內(nèi)容感凤。那么該怎么做呢?這里有很多種方法粒督,我們這里邊從一般意義上給出幾種方法:

比如第一種方法:我們可以完整的解析信息的標記形式陪竿,然后再提取信息中的關(guān)鍵信息。簡單說屠橄,我們用標記解析器去解析XML族跛、JSON闰挡、YAML格式。然后將其中所需要的信息提取出來礁哄。比如說BeautifulSoup庫提供了對標簽樹的遍歷长酗。我們需要解析成信息,去遍歷這棵樹就可以了桐绒。這種方法優(yōu)點是信息解析準確夺脾,你需要那部分信息就能找到這部分信息的位置,并且把信息提取出來茉继。但是缺點也非常明顯咧叭,我們再提取信息的時候過程

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市馒疹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌颖变,老刑警劉巖生均,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異腥刹,居然都是意外死亡马胧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門衔峰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來佩脊,“玉大人,你說我怎么就攤上這事垫卤⊥茫” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵穴肘,是天一觀的道長歇盼。 經(jīng)常有香客問我,道長评抚,這世上最難降的妖魔是什么豹缀? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮慨代,結(jié)果婚禮上邢笙,老公的妹妹穿的比我還像新娘。我一直安慰自己侍匙,他們只是感情好氮惯,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般筐骇。 火紅的嫁衣襯著肌膚如雪债鸡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天铛纬,我揣著相機與錄音厌均,去河邊找鬼。 笑死告唆,一個胖子當著我的面吹牛棺弊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播擒悬,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼模她,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了懂牧?” 一聲冷哼從身側(cè)響起侈净,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎僧凤,沒想到半個月后畜侦,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡躯保,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年旋膳,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片途事。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡验懊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出尸变,到底是詐尸還是另有隱情义图,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布召烂,位于F島的核電站歌溉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏骑晶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一草慧、第九天 我趴在偏房一處隱蔽的房頂上張望桶蛔。 院中可真熱鬧,春花似錦漫谷、人聲如沸仔雷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽碟婆。三九已至电抚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間竖共,已是汗流浹背蝙叛。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留公给,地道東北人借帘。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像淌铐,于是被迫代替她去往敵國和親肺然。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容