本體數(shù)據(jù)處理 Python and R

最近做數(shù)據(jù)預(yù)處理桶略,需要將兩個(gè)本體數(shù)據(jù)集處理成字典,簡(jiǎn)單記錄下遇到的坑

1.obo本體

[Term]
id: OBT:000591
name: PCE contaminated site
synonym: "perchloroethylene contaminated site" EXACT []
synonym: "tetrachloroethene contaminated site" EXACT []
is_a: OBT:000524 ! site contaminated with organic compound

數(shù)據(jù)格式大概是這樣,總共1w多行际歼,一個(gè)term記錄了本體的id惶翻、name、同義詞鹅心、繼承關(guān)系吕粗,這個(gè)本體處理比較方便,用Python讀取每行旭愧,遇到[term]就將后面的鍵和值存起來

def parse_lines(lines):
    for line in lines:
        i = line.find('!')
        if i == 0:
            line = line[0:i]
        line = line.strip()
        if line:
            yield line

def read_stanzas(lines):
    def unescape(str):
        return str.strip()
    single_valued = set(['synonym'])
    stanza = defaultdict(list)
    stanza['@type'] = 'Header'
    for line in lines:
        if line.startswith('['):
            yield stanza
            stanza = defaultdict(list)
        else:
            k, v = line.split(':', 1)
            key = unescape(k)
            val = unescape(v)
            if key in single_valued:
                stanza[key].append(val)
            else:
                stanza[key] = val
    yield stanza

2.NBCI_Taxonomy

這個(gè)數(shù)據(jù)集有六七個(gè)文件颅筋,最多的一個(gè)200多w行,每行大概長(zhǎng)這樣

2   |   131567  |   superkingdom    |       |   0   |   0   |   11  |   0   |   0   |   0   |   0   |   0   |       |

通過'\t|\t'進(jìn)行分割榕茧,在用Python時(shí)垃沦,感覺pandas對(duì)DataFrame的列進(jìn)行字符串處理不方便。于是轉(zhuǎn)用R用押,發(fā)現(xiàn)方便很多肢簿,推薦dplyr包,讀取速度很快蜻拨,'\t|\t'都不用自己寫池充,讀完就分割好了。

然后進(jìn)行多表鏈接缎讼,最后想把數(shù)據(jù)寫進(jìn)mysql收夸,先是用RMySQL,建立連接成功血崭,但是自己的DataFrame就是寫不進(jìn)去卧惜,提示sql語(yǔ)法問題。轉(zhuǎn)用Python 的mysql-python包夹纫,安裝失敗咽瓷,按著網(wǎng)上的方法試了很多次,卒舰讹。

最后還是回到R, 用RODBC搞定茅姜,就是覺得寫入速度太慢,200w行數(shù)據(jù)寫了半個(gè)多小時(shí)才寫了一半月匣,希望以后找到更好的替代方法钻洒。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市锄开,隨后出現(xiàn)的幾起案子素标,更是在濱河造成了極大的恐慌,老刑警劉巖萍悴,帶你破解...
    沈念sama閱讀 222,000評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件糯钙,死亡現(xiàn)場(chǎng)離奇詭異粪狼,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)任岸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門再榄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人享潜,你說我怎么就攤上這事困鸥。” “怎么了剑按?”我有些...
    開封第一講書人閱讀 168,561評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵疾就,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我艺蝴,道長(zhǎng)猬腰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,782評(píng)論 1 298
  • 正文 為了忘掉前任猜敢,我火速辦了婚禮姑荷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘缩擂。我一直安慰自己鼠冕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評(píng)論 6 397
  • 文/花漫 我一把揭開白布胯盯。 她就那樣靜靜地躺著懈费,像睡著了一般。 火紅的嫁衣襯著肌膚如雪博脑。 梳的紋絲不亂的頭發(fā)上憎乙,一...
    開封第一講書人閱讀 52,394評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音叉趣,去河邊找鬼寨闹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛君账,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播沈善,決...
    沈念sama閱讀 40,952評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼乡数,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了闻牡?” 一聲冷哼從身側(cè)響起净赴,我...
    開封第一講書人閱讀 39,852評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎罩润,沒想到半個(gè)月后玖翅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體球匕,經(jīng)...
    沈念sama閱讀 46,409評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評(píng)論 3 341
  • 正文 我和宋清朗相戀三年蕊玷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了珊泳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,615評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡猜极,死狀恐怖中姜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跟伏,我是刑警寧澤丢胚,帶...
    沈念sama閱讀 36,303評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站受扳,受9級(jí)特大地震影響携龟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜勘高,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評(píng)論 3 334
  • 文/蒙蒙 一峡蟋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧相满,春花似錦层亿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至建蹄,卻和暖如春碌更,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背洞慎。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工痛单, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人劲腿。 一個(gè)月前我還...
    沈念sama閱讀 49,041評(píng)論 3 377
  • 正文 我出身青樓旭绒,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親焦人。 傳聞我的和親對(duì)象是個(gè)殘疾皇子挥吵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容