GitHub中各個(gè)文件的作用

一：geisen_main_v1_2_1文件夾

（1）geisen_main_v1_2_1/src/geisen/downloader.py ：

主要函數(shù)：

①download_data_set? ：用于異構(gòu)下載猜谚。

輸入文件為：name_of_dataset string 和folder_contains_dots彤悔，

輸出文件：locations_of_storage，一個(gè)包含每個(gè)文件的存儲(chǔ)路徑列表

②download_genome：用于基因組文件下

② download_genome：下載taxon_of_interest的基因組信息

輸入文件： taxon_of_interest中ncbi分類(lèi)法的 ID號(hào)

? ? ? ? ? ? ? ? ? subset_of_interest NIH使用的擴(kuò)展

輸出文件：p_out

使用的數(shù)據(jù)資源為：基因，來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank（Genome version GRCh38.p10）（ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/

GCF_000001405.36_GRCh38.p10）

（2）geisen_main_v1_2_1/src/geisen/settings.py：這個(gè)文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下載相關(guān)參數(shù)設(shè)置

（3）geisen_main_v1_2_1/src/geisen/genealacart.py ：這個(gè)模塊包含了提取特定數(shù)據(jù)集的工具泵额，它對(duì)下載的數(shù)據(jù)進(jìn)行了整理始赎。具體有以下幾點(diǎn)：

①將從genealacard加載選定的數(shù)據(jù)集并以與生物學(xué)項(xiàng)目科學(xué)一致的格式導(dǎo)出

②加載genealacart數(shù)據(jù)集

③從ENCODE中加載增強(qiáng)子。并將它們放在可由gene_ncbi索引的格式中

④獲取GIFT得分，它表示數(shù)據(jù)庫(kù)中出現(xiàn)基因的部分勺远。被genealacart用作基因一般注釋密度的代理。

⑤加載啟動(dòng)子中的轉(zhuǎn)錄因子

⑥加載不耐受指標(biāo)时鸵。并將它們放置在gene_ncbi可索引的格式中

⑦加載疾病指標(biāo)。并將它們放在可由gene_ncbi索引的格式中厅瞎。

⑧加載人類(lèi)表型本體論饰潜。并將它們放在可由gene_ncbi索引的格式中

⑨獲取具有明確Input Term, Symbol 和 Entrez Gene

⑩創(chuàng)建數(shù)據(jù)庫(kù)，其中一列中的條目分隔為多行

（4）geisen_main_v1_2_1/src/geisen/gxa.py：從Matt Antalek (Rick Morimoto實(shí)驗(yàn)室)下載了幾種模型生物的170222組織數(shù)據(jù)和簸。

（5）geisen_main_v1_2_1/src/geisen/mapper.py（該文件是對(duì)下載的數(shù)據(jù)進(jìn)行處理）

該文件夾中包含了以下這些功能：

①將ensembl基因ID映射到NCBI (Entrez)基因ID彭雾。只考慮ensembl和entrez基因id的明確1:1映射

②將位點(diǎn)標(biāo)記映射到NCBI的 (Entrez)基因ID。只考慮明確的 1:1映射锁保。

③通過(guò)unprot (swissprot and trembl)在ncbi分類(lèi)法IDs和分類(lèi)單元名稱(chēng)之間手動(dòng)檢索查找

⑤將ensembl轉(zhuǎn)錄本ID映射到NCBI (Entrez)基因ID薯酝。

⑥將帶有基因符號(hào)id的數(shù)據(jù)流映射到gene_ncbi

⑦將帶有uniprot_protein IDs的數(shù)據(jù)結(jié)構(gòu)映射到gene_ncbi

⑧對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分組，并返回按gene_ncbi進(jìn)行分組的數(shù)據(jù)結(jié)構(gòu)爽柒，并通過(guò)how進(jìn)行匯總

⑨檢查索引或給定數(shù)據(jù)框架df列的 id_name 的存在吴菠，如果id是不明確的（出現(xiàn)在索引和列中）或不存在，將拋出錯(cuò)誤

⑩獲取一個(gè)系列中的重復(fù)值

2019.3.29

(6)geisen_main_v1_2_1/src/geisen/papers.py

該文件是從過(guò)去發(fā)表的出版物中提取一些適當(dāng)?shù)奶卣骱拼澹糜跈C(jī)器學(xué)習(xí)做葵。

如：

①?gòu)腂lomen等人提取合適的表型并將其與NCBI gene ID一起保存，只能檢索CRISPR cassettes的插入心墅，并且將對(duì)KBM7和HAP1細(xì)胞進(jìn)行檢索酿矢。

②從Hart等人提取合適的表型并將其與NCBI gene ID一起保存。

③Itzhak等人于2016年測(cè)量了HeLa細(xì)胞的蛋白質(zhì)定位和豐度

④由Lek等人于2016年出版的ExAc數(shù)據(jù)庫(kù)

⑤處理Rolland等人2014年的補(bǔ)充數(shù)據(jù)怎燥。輸出其考慮的基因瘫筐，計(jì)算相互作用和相互作用的二進(jìn)制表

⑥人類(lèi)基因?qū)＠麛?shù)據(jù)。注意铐姚，公司通常為一個(gè)n-mer序列及其變體申請(qǐng)專(zhuān)利策肝，因此他們實(shí)際上并不為單個(gè)基因申請(qǐng)專(zhuān)利，而是為與基因有一定相似性的序列申請(qǐng)專(zhuān)利谦屑。

⑦人蛋白質(zhì)圖譜的蛋白質(zhì)亞細(xì)胞定位

⑧形成人類(lèi)蛋白質(zhì)圖譜RNA 轉(zhuǎn)錄本數(shù)據(jù)驳糯。

⑨Wang等人。(功能缺失突變監(jiān)測(cè)適應(yīng)性)

⑩將具有標(biāo)稱(chēng)值的PANDAS數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為具有布爾值分類(lèi)的PANDAS數(shù)據(jù)結(jié)構(gòu)氢橙。

（7）geisen_main_v1_2_1/src/geisen/prepare.py：該文件夾是下載數(shù)據(jù)和收集各種特征等準(zhǔn)備工作

使用的數(shù)據(jù)資源有：

基因酝枢，來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank（Genome version GRCh38.p10）（ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10）

基因和染色體的名稱(chēng)于2017年初從NCBI NIH獲得（https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz）。

第一層：下載數(shù)據(jù)并生成相應(yīng)的數(shù)據(jù)集

①?gòu)腷iogrid下載蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)：

②從ncbi下載生物系統(tǒng)悍手，并將其格式化以供進(jìn)一步使用帘睦。生物系統(tǒng)在NCBI上具有兩個(gè)版本(有GO注釋和沒(méi)有GO注釋)袍患，這里沒(méi)有GO的版本用于避免與gene2go重復(fù)

③將生物系統(tǒng)按taxon分開(kāi)

④創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表，列出基因的基本屬性(例如:GC內(nèi)容竣付、長(zhǎng)度)

⑤創(chuàng)建以逗號(hào)分隔的表诡延，其中列出了經(jīng)過(guò)驗(yàn)證的RNA轉(zhuǎn)錄本的幾個(gè)屬性。包括:RNA的長(zhǎng)度和編碼序列古胆，RNA中的核苷酸和編碼序列肆良，密碼子偏倚的度量

⑥創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表，列出RNA轉(zhuǎn)錄本的預(yù)測(cè)編碼序列(CDS)的幾個(gè)屬性逸绎。包括:RNA和核苷酸的長(zhǎng)度（收集Genebank中RNA的特征）

⑦創(chuàng)建以逗號(hào)分隔的表惹恃，列出基因組預(yù)測(cè)的RNA轉(zhuǎn)錄本的幾個(gè)特性。包括:RNA和核苷酸的長(zhǎng)度

⑧從ncbi下載gene_info（基因信息）棺牧，并將其格式化以供進(jìn)一步使用

⑨下載gene2ensembl巫糙，并將其格式化以便進(jìn)一步使用

⑩下載gene2go，并將其格式化以便進(jìn)一步使用

?從NCBI上下載gene2pubmed并將其格式化以便進(jìn)一步使用

?從NCBI中下載generifs_basic颊乘，并將其格式化以便進(jìn)一步使用

?從基因檢測(cè)登記處下載數(shù)據(jù)集

?下載uniprot數(shù)據(jù)庫(kù)参淹，創(chuàng)建完整的uniprot數(shù)據(jù)庫(kù)下載

?準(zhǔn)備Uniprot的ID映射

?從NCBI中下載taxdmp，并將其格式化以便進(jìn)一步使用（taxdmp可以提供物種對(duì)應(yīng)的rank信息）

第二層：這些數(shù)據(jù)集的生成要求首先執(zhí)行第1層函數(shù)(并且成功地創(chuàng)建了相應(yīng)的第1層數(shù)據(jù)集)

①提取關(guān)于染色體的信息

②Flybase黑腹果蠅（Drosophila melanogaster）內(nèi)維持一個(gè)維護(hù)良好的基因表達(dá)集合乏悄。分離單個(gè)數(shù)據(jù)集浙值，如modENCODE組織序列

2019.3.30

③Gerstein實(shí)驗(yàn)室維持了一個(gè)來(lái)自modENCODE的部分過(guò)時(shí)的(在其位點(diǎn)注釋中)基因表達(dá)數(shù)據(jù)集，樣本注釋處于一個(gè)糟糕的狀態(tài)檩小，盡管modENCODE幫助會(huì)轉(zhuǎn)發(fā)/CC它們并對(duì)它們進(jìn)行直接處理亥鸠，但是它們不能為許多樣本提供適當(dāng)?shù)淖⑨尅＿@個(gè)函數(shù)將加載秀麗隱桿線蟲(chóng)的官方modENCODE高級(jí)代表

④從NCBI中下載同源基因识啦，并將其格式化以便進(jìn)一步使用

⑤將interpro數(shù)據(jù)庫(kù)以一種易于使用的格式放置负蚊。Interpro是一個(gè)大型數(shù)據(jù)庫(kù)，它聯(lián)合了幾個(gè)關(guān)于蛋白質(zhì)的數(shù)據(jù)庫(kù)颓哮。注意家妆，單個(gè)數(shù)據(jù)庫(kù)可以有引用相同interpro ID的條目(因此具有相同的蛋白質(zhì)屬性）。

⑥參考蛋白質(zhì)數(shù)據(jù)庫(kù)冕茅，提取分類(lèi)單元特異性FASTA文件伤极。

第三層函數(shù)：特征的注釋

提取氨基酸的性質(zhì)(包括衍生性質(zhì)，如gravy和等電點(diǎn))姨伤，并將結(jié)果保存為逗號(hào)分隔的文件哨坪。

第四層函數(shù)：

①?gòu)囊粋€(gè)分類(lèi)單元的基因特異性計(jì)算中獲得最佳排列的RADAR預(yù)測(cè)(分子內(nèi)相似性)，并將其保存為逗號(hào)分隔的文件

②從一個(gè)taxon的特異性基因的計(jì)算中獲得SEG(序列復(fù)雜度)乍楚，并將其保存為逗號(hào)分隔的文件当编，以便使用中位數(shù)映射到ncbi_gene_id

③從一個(gè)taxon的基因特異性計(jì)算中獲得?signalP(信號(hào)肽和多跨膜)，并將其保存為逗號(hào)分隔的文件

支持函數(shù)：這些支持性函數(shù)我認(rèn)為是用來(lái)整理上面那些函數(shù)所下載的數(shù)據(jù)

①提取蛋白質(zhì)氨基酸序列和性質(zhì)徒溪。忽略并去除未定義的氨基酸忿偷，基本上只留下略微截短的蛋白質(zhì)

②檢查給定序列是否以起始密碼子開(kāi)始金顿，以終止密碼子結(jié)束，并由三的整數(shù)倍數(shù)組成鲤桥，這表明不存在移碼揍拆。

③計(jì)算腺嘌呤、胞嘧啶茶凳、鳥(niǎo)嘌呤和胸腺嘧啶的含量

計(jì)數(shù)胞嘧啶+鳥(niǎo)嘌呤分?jǐn)?shù)(CG含量)

計(jì)算腺嘌呤嫂拴、胞嘧啶、鳥(niǎo)嘌呤和胸腺嘧啶的總數(shù)(忽略未定義的核苷酸)

④將解析一個(gè)限定符列表并返回ncbi基因ID贮喧。如果基因ID不明確顷牌，或者沒(méi)有找到，將返回nan（從限定符號(hào)列表中提取NCBI中基因的ID號(hào)）

⑤從uniprot表頭中提取uniprot ID

⑥獲取密碼子選擇偏倚的幾個(gè)指標(biāo)

⑦計(jì)算標(biāo)準(zhǔn)密碼子的使用情況塞淹。

⑧seg的解析輸出(低緊度提取程序)

⑨檢查一個(gè)序列是否只由已知的ACGT核苷酸組成

⑩在給定字典中的每個(gè)鍵名前插入前綴和_

?提取單個(gè)蛋白序列(屬于taxon_id定義的分類(lèi)單元)作為FASTA，用于啟動(dòng)批處理(例如:通過(guò)RADAR)罪裹，將忽略蛋白質(zhì)片段饱普。

?提取屬于taxon_id定義的分類(lèi)單元的蛋白質(zhì)序列，作為FASTA(例如:用于SEG處理)状共。忽略蛋白質(zhì)片段套耕。

?在描述中沒(méi)有找到返回wheter(片段)

?將包含表達(dá)數(shù)據(jù)的gerstein lab excel文件加載到panda數(shù)據(jù)流中;刪除不需要的額外列

?加載完全映射的Uniprot

?檢索到uniprot數(shù)據(jù)庫(kù)(如swiss-prot或trmbl)的路徑

?將兩個(gè)數(shù)據(jù)格式保存到同一個(gè)文件夾中，第一個(gè)數(shù)據(jù)格式具有postfix_orig峡继，而另一個(gè)數(shù)據(jù)格式具有postfix _ncbi_gene冯袍。

最后編輯于：2019.03.30 22:52:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市碾牌，隨后出現(xiàn)的幾起案子康愤，更是在濱河造成了極大的恐慌，老刑警劉巖舶吗，帶你破解...
沈念sama閱讀 222,252評(píng)論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件征冷，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡誓琼，警方通過(guò)查閱死者的電腦和手機(jī)检激，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腹侣，“玉大人叔收，你說(shuō)我怎么就攤上這事“亮ィ” “怎么了饺律？”我有些...
開(kāi)封第一講書(shū)人閱讀 168,814評(píng)論 0贊 361
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)跺株。經(jīng)常有香客問(wèn)我蓝晒，道長(zhǎng)腮出，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,869評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任芝薇，我火速辦了婚禮胚嘲，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘洛二。我一直安慰自己馋劈，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,888評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布晾嘶。她就那樣靜靜地躺著妓雾，像睡著了一般。火紅的嫁衣襯著肌膚如雪垒迂。梳的紋絲不亂的頭發(fā)上械姻，一...
開(kāi)封第一講書(shū)人閱讀 52,475評(píng)論 1贊 312
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音机断，去河邊找鬼楷拳。笑死，一個(gè)胖子當(dāng)著我的面吹牛吏奸，可吹牛的內(nèi)容都是我干的欢揖。我是一名探鬼主播，決...
沈念sama閱讀 41,010評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼奋蔚，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼她混！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起泊碑，我...
開(kāi)封第一講書(shū)人閱讀 39,924評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤坤按，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后馒过，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體晋涣，經(jīng)...
沈念sama閱讀 46,469評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,552評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年沉桌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了谢鹊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,680評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡留凭，死狀恐怖佃扼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蔼夜，我是刑警寧澤兼耀，帶...
沈念sama閱讀 36,362評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響瘤运，放射性物質(zhì)發(fā)生泄漏窍霞。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,037評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一拯坟、第九天我趴在偏房一處隱蔽的房頂上張望但金。院中可真熱鬧，春花似錦郁季、人聲如沸冷溃。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,519評(píng)論 0贊 25
一樁弒父案梦裂，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)似枕。三九已至，卻和暖如春年柠，著一層夾襖步出監(jiān)牢的瞬間凿歼，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,621評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工冗恨，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留答憔，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,099評(píng)論 3贊 378
代替公主和親
正文我出身青樓派近，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親洁桌。傳聞我的和親對(duì)象是個(gè)殘疾皇子渴丸，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,691評(píng)論 2贊 361

GitHub中各個(gè)文件的作用

推薦閱讀更多精彩內(nèi)容