歡迎關(guān)注天下博客:http://blog.genesino.com/2018/01/literature-search/
傻瓜系列重啟了,如何快速查找指定基因的調(diào)控網(wǎng)絡(luò)介紹了使用在線查詢數(shù)據(jù)庫 (http://evexdb.org/)對PubMed和PubMed Central中發(fā)表文章的摘要和全文為依據(jù)進行文本挖掘探尋基因直接可能的相互作用的工具甜无。反響很好扛点,但現(xiàn)在網(wǎng)站似乎出了點問題,獲得的相互作用細節(jié)信息不能展開了(推測可能是使用的JS庫無法加載)岂丘。有朋友留言推薦 Cytoscape literature search陵究,一個存在歷史挺久的Cytoscape插件,通過給定關(guān)鍵字搜索文獻奥帘,并且基于搜索結(jié)果構(gòu)建互作網(wǎng)絡(luò)铜邮,幫助研究者快速搜索和提取基因之間,蛋白之間可能的聯(lián)系寨蹋,兼容2.7和3.1版本松蒜,下載32,742次。
作為Cytoscape的插件已旧,安裝很方便秸苗,基本的Cytoscape使用見Cytoscape之操作界面介紹和新出爐的Cytoscape視頻教程。前段時間R, Cytoscape, AI的培訓(xùn)班也涉及了更多的Cytoscape的使用评姨。
安裝完之后难述,從菜單欄Apps
-Agilent Literature Search
啟動,使用界面如下吐句。
左側(cè)一般輸入一個或多個基因 (若輸入多個則每一行輸入一個)胁后,右邊限制一個環(huán)境,可以是物種嗦枢,也可以是某種疾病如lung cancer
攀芯,或某個過程stem cell
。下面的選項還可以選擇是否使用別名 (選擇后我們輸入的pou5f1
就被轉(zhuǎn)成了oct4
, otf4
等)文虏,限定物種侣诺,限定相互作用的判斷 (個人一般使用relaxed)殖演。具體每個參數(shù)的含義詳見后面解釋。
前面輸入的內(nèi)容都會在Query Editor
中轉(zhuǎn)換為邏輯查詢表達式的形式年鸳,方便查看搜索的內(nèi)容是否符合自己的需要趴久,也可以自行修改,比如我們把stem cell
改為AND
連接搔确。
[圖片上傳失敗...(image-6e2852-1517211124303)]
點擊藍色箭頭
就可以啟動搜索彼棍。搜索到的文獻展示在左下角,可點擊跳轉(zhuǎn)到PubMed膳算,右鍵刪除某一項座硕。
右側(cè)展示的是挖掘出的調(diào)控網(wǎng)絡(luò),可以根據(jù)屬性進行一些修飾涕蜂、美化和查詢华匾。
[圖片上傳失敗...(image-8852b1-1517211124303)]
網(wǎng)絡(luò)查看和美化
首先是調(diào)大字體 (Label Font Size
),設(shè)置搜索出的基因和挖掘出的相互作用基因不同的顏色 (Fill Color-searchTerm-Discrete Mapping
), 刪掉與核心基因沒有連線的點机隙,Apply preferred layout重新調(diào)整布局 (工具欄上的刷新按鈕)蜘拉。
如果覺得線太過扭曲,可以Layout-Clear all edge bends
黍瞧,然后再點擊Layout-Bundle edges
使連接看上去圓潤诸尽。初步修飾下原杂,效果如下:
[圖片上傳失敗...(image-12ac21-1517211124303)]
如果常用印颤,每次調(diào)樣式也比較麻煩,可以把樣式保存起來穿肄,點擊樣式旁的三道杠年局,選擇Copy style
重新命令 (若不導(dǎo)出,關(guān)閉后就不見了)咸产,然后File-Export
導(dǎo)出矢否。下次查詢好之后,再File-Import
導(dǎo)入就好脑溢。也可后臺回復(fù) style僵朗,獲取我們這個簡單的樣式,以此為基礎(chǔ)修改屑彻。
每個節(jié)點验庙,點擊右鍵,按下圖點選菜單社牲,可以看到支持其相互作用的文章句子節(jié)選粪薛,方便快速閱讀和理解潛在的調(diào)控關(guān)系。
[圖片上傳失敗...(image-abf041-1517211124303)]
更多Cytoscape的使用見之前的新出爐的Cytoscape視頻教程搏恤。在R, Cytoscape, AI的培訓(xùn)中也有我們的主講老師講的更多的Cytoscape的使用违寿。(后臺回復(fù) 培訓(xùn) 湃交,跳轉(zhuǎn)到培訓(xùn)網(wǎng)站查看視頻)
選項解釋
尋求幫助
在上述查詢界面,按F1
或點Help
可以打開幫助頁面如下藤巢。當(dāng)前截圖顯示的是通過View菜單選擇搜索的數(shù)據(jù)庫搞莺,現(xiàn)在只有PubMed
和USPTO
(美國商標(biāo)專利數(shù)據(jù)庫)可選。
[圖片上傳失敗...(image-a7215a-1517211124303)]
Max Engine Matches: 限制每個字符串在每個庫最大查詢到的結(jié)果數(shù)目掂咒。
Use Aliases: 選定后腮敌,將會根據(jù)Concept Lexicon
中限定的物種尋找左側(cè)輸入框輸入的內(nèi)容的別名。查詢時俏扩,有一個別名匹配上就可以糜工。
Use context: 是否使用Context面板 (右側(cè)輸入框)限定查詢。
Concept Lexicon Limits Search: 如果需要把搜索結(jié)果限制在某個物種录淡,則勾選捌木。
Concept Lexicon: 通常是物種相關(guān)的選項,對Use aliases
的判斷和搜索結(jié)果提取有效嫉戚,但不用于限制查詢結(jié)果刨裆。所以如果要在查詢時就限制物種,則需要再右側(cè)輸入框輸入物種的名字彬檀,會加快查詢速度帆啃。
Interaction Lexicon: 限制判斷相互作用的嚴(yán)格程度。對于每個包含搜索關(guān)鍵字的句子窍帝,都會來判斷里面是都包含interaction lexicon
收錄的動詞努潘,如activate
, enhance
, cause
等。這些關(guān)鍵詞可以修改坤学,有嚴(yán)格版和寬松版疯坤。
Load and Save: 搜索結(jié)果可以存儲和再次導(dǎo)入。
選項進一步解釋和自定義
如果Windows下深浮,LiteratureSearch的配置文件在目錄C:\Users\sxbd\CytoscapeConfiguration\app-data\com.agilent.labs.als.AgilentLiteratureSearch-3.1.1\data下压怠。(把sxbd
改為您的用戶名)
Interaction Lexicon:前面提到的limit
, relax
, empty
每一個的效果都記錄在文件interaction-lexicon-map.txt
中,文件內(nèi)容如下
limited data/strictVerbNames.txt
relaxed data/verbNames.txt
empty data/emptyVerbNames.txt
每個不同的參數(shù)表示使用的關(guān)鍵詞列表不同飞苇,empty
表示不進行限定菌瘫,只要兩個詞出現(xiàn)在一個句子中就認為有作用。
strict
表示嚴(yán)格限定布卡,默認要求句子中必須含有收錄的15個單詞中的一個才認為存在相互作用 (在文件strictVerbNames.txt
)雨让。
relaxed
默認要求句子中必須含有收錄的75個單詞中的一個才認為存在相互作用,涉及促進羽利、抑制宫患、結(jié)合、催化等對應(yīng)的英文單詞和變種,在使用過程中娃闲,我們也可以不斷完善虚汛、添加更多詞匯到verbNames.txt
中,以獲得更多關(guān)注的相互作用皇帮。
Concept Lexicon
這個由文件concept-lexicon-map.txt
控制卷哩,默認收錄了常見物種的KEGG注釋信息、基因的別名信息属拾。
Arabidopsis thaliana data/.uc_Arabidopsis_thaliana
Bos taurus data/.uc_Bos_taurus
Caenorhabditis elegans data/.uc_Caenorhabditis_elegans
Danio rerio data/.uc_Danio_rerio
Drosophila melanogaster data/.uc_Drosophila_melanogaster
Escherichia coli data/.uc_Escherichia_coli
Homo sapiens data/.uc_Homo_sapiens
Mus musculus data/.uc_Mus_musculus
Rattus norvegicus data/.uc_Rattus_norvegicus
Saccharomyces cerevisiae data/.uc_Saccharomyces_cerevisiae
以人的數(shù)據(jù)為例将谊,前面是KEGG編號、對應(yīng)的描述渐白,后面是基因的每個名字一行尊浓,方便使用別名搜索。
6.3.5.8 aminodeoxychorismate synthase adc synthase 4-amino-4-deoxychorismate synthase pabb
6.3.5.9 hydrogenobyrinic acid a, c-diamide synthase (glutamine-hydrolysing) cobb
dynamin dynamin-1 dynamin1
dynamin-2 dynamin2
epsin epsin1 epsin-1
nf-kappaB nfkappaB nfkb1 nfkb nf-kappa B nfkappa B
frizzled fz fzd fzd7
dsh disheveled dishevelled dsh1 dvl1l1 dvl1
bcatenin beta-catenin beta catenin))
之前如何快速查找指定基因的調(diào)控網(wǎng)絡(luò)文章下有朋友留言纯衍,非模式生物怎么查找栋齿,一個是利用生信寶典之傻瓜式(四)蛋白蛋白互作網(wǎng)絡(luò)在線搜索中提到的在線工具STRING收錄了2031物種。另外一個就是在這自定義需要的文件襟诸,使用此插件搜索瓦堵。