GitHub中各個(gè)文件的作用

一:geisen_main_v1_2_1文件夾

(1)geisen_main_v1_2_1/src/geisen/downloader.py

主要函數(shù):

①download_data_set? :用于異構(gòu)下載猜谚。

輸入文件為:name_of_dataset string 和folder_contains_dots彤悔,

輸出文件:locations_of_storage,一個(gè)包含每個(gè)文件的存儲(chǔ)路徑列表

②download_genome: 用于基因組文件下



② download_genome:下載taxon_of_interest的基因組信息

輸入文件: taxon_of_interest中ncbi分類(lèi)法的 ID號(hào)

? ? ? ? ? ? ? ? ? subset_of_interest NIH使用的擴(kuò)展

輸出文件:p_out

使用的數(shù)據(jù)資源為:基因,來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/

GCF_000001405.36_GRCh38.p10)



(2)geisen_main_v1_2_1/src/geisen/settings.py:這個(gè)文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下載相關(guān)參數(shù)設(shè)置

(3)geisen_main_v1_2_1/src/geisen/genealacart.py :這個(gè)模塊包含了提取特定數(shù)據(jù)集的工具泵额,它對(duì)下載的數(shù)據(jù)進(jìn)行了整理始赎。具體有以下幾點(diǎn):

①將從genealacard加載選定的數(shù)據(jù)集并以與生物學(xué)項(xiàng)目科學(xué)一致的格式導(dǎo)出


②加載genealacart數(shù)據(jù)集


③從ENCODE中加載增強(qiáng)子。并將它們放在可由gene_ncbi索引的格式中


④獲取GIFT得分,它表示數(shù)據(jù)庫(kù)中出現(xiàn)基因的部分勺远。被genealacart用作基因一般注釋密度的代理。


⑤加載啟動(dòng)子中的轉(zhuǎn)錄因子


⑥加載不耐受指標(biāo)时鸵。并將它們放置在gene_ncbi可索引的格式中


⑦加載疾病指標(biāo)。并將它們放在可由gene_ncbi索引的格式中厅瞎。


⑧加載人類(lèi)表型本體論饰潜。并將它們放在可由gene_ncbi索引的格式中


⑨獲取具有明確Input Term, Symbol 和 Entrez Gene


⑩創(chuàng)建數(shù)據(jù)庫(kù),其中一列中的條目分隔為多行


(4)geisen_main_v1_2_1/src/geisen/gxa.py:從Matt Antalek (Rick Morimoto實(shí)驗(yàn)室)下載了幾種模型生物的170222組織數(shù)據(jù)和簸。


(5)geisen_main_v1_2_1/src/geisen/mapper.py(該文件是對(duì)下載的數(shù)據(jù)進(jìn)行處理

該文件夾中包含了以下這些功能:

①將ensembl基因ID映射到NCBI (Entrez)基因ID彭雾。只考慮ensembl和entrez基因id的明確1:1映射

②將位點(diǎn)標(biāo)記映射到NCBI的 (Entrez)基因ID。只考慮明確的 1:1映射锁保。

③通過(guò)unprot (swissprot and trembl)在ncbi分類(lèi)法IDs和分類(lèi)單元名稱(chēng)之間手動(dòng)檢索查找

⑤將ensembl轉(zhuǎn)錄本ID映射到NCBI (Entrez)基因ID薯酝。

⑥將帶有基因符號(hào)id的數(shù)據(jù)流映射到gene_ncbi

⑦將帶有uniprot_protein IDs的數(shù)據(jù)結(jié)構(gòu)映射到gene_ncbi

⑧對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分組,并返回按gene_ncbi進(jìn)行分組的數(shù)據(jù)結(jié)構(gòu)爽柒,并通過(guò)how進(jìn)行匯總


⑨檢查索引或給定數(shù)據(jù)框架df列的 id_name 的存在吴菠,如果id是不明確的(出現(xiàn)在索引和列中)或不存在,將拋出錯(cuò)誤

⑩獲取一個(gè)系列中的重復(fù)值






2019.3.29

(6)geisen_main_v1_2_1/src/geisen/papers.py

該文件是從過(guò)去發(fā)表的出版物中提取一些適當(dāng)?shù)奶卣骱拼澹糜跈C(jī)器學(xué)習(xí)做葵。

如:

①?gòu)腂lomen等人提取合適的表型并將其與NCBI gene ID一起保存,只能檢索CRISPR cassettes的插入心墅,并且將對(duì)KBM7和HAP1細(xì)胞進(jìn)行檢索酿矢。

②從Hart等人提取合適的表型并將其與NCBI gene ID一起保存。

③Itzhak等人于2016年測(cè)量了HeLa細(xì)胞的蛋白質(zhì)定位和豐度

④由Lek等人于2016年出版的ExAc數(shù)據(jù)庫(kù)

⑤處理Rolland等人2014年的補(bǔ)充數(shù)據(jù)怎燥。輸出其考慮的基因瘫筐,計(jì)算相互作用和相互作用的二進(jìn)制表

⑥人類(lèi)基因?qū)@麛?shù)據(jù)。注意铐姚,公司通常為一個(gè)n-mer序列及其變體申請(qǐng)專(zhuān)利策肝,因此他們實(shí)際上并不為單個(gè)基因申請(qǐng)專(zhuān)利,而是為與基因有一定相似性的序列申請(qǐng)專(zhuān)利谦屑。

⑦人蛋白質(zhì)圖譜的蛋白質(zhì)亞細(xì)胞定位

⑧形成人類(lèi)蛋白質(zhì)圖譜RNA 轉(zhuǎn)錄本數(shù)據(jù)驳糯。


⑨Wang等人。(功能缺失突變監(jiān)測(cè)適應(yīng)性)


⑩將具有標(biāo)稱(chēng)值的PANDAS數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為具有布爾值分類(lèi)的PANDAS數(shù)據(jù)結(jié)構(gòu)氢橙。


(7)geisen_main_v1_2_1/src/geisen/prepare.py:該文件夾是下載數(shù)據(jù)和收集各種特征等準(zhǔn)備工作

使用的數(shù)據(jù)資源有:

基因酝枢,來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)

基因和染色體的名稱(chēng)于2017年初從NCBI NIH獲得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)。

第一層:下載數(shù)據(jù)并生成相應(yīng)的數(shù)據(jù)集


①?gòu)腷iogrid下載蛋白質(zhì)相互作用數(shù)據(jù)庫(kù):

②從ncbi下載生物系統(tǒng)悍手,并將其格式化以供進(jìn)一步使用帘睦。生物系統(tǒng)在NCBI上具有兩個(gè)版本(有GO注釋和沒(méi)有GO注釋)袍患,這里沒(méi)有GO的版本用于避免與gene2go重復(fù)


③將生物系統(tǒng)按taxon分開(kāi)


④創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表,列出基因的基本屬性(例如:GC內(nèi)容竣付、長(zhǎng)度)

⑤創(chuàng)建以逗號(hào)分隔的表诡延,其中列出了經(jīng)過(guò)驗(yàn)證的RNA轉(zhuǎn)錄本的幾個(gè)屬性。包括:RNA的長(zhǎng)度和編碼序列古胆,RNA中的核苷酸和編碼序列肆良,密碼子偏倚的度量

⑥創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表,列出RNA轉(zhuǎn)錄本的預(yù)測(cè)編碼序列(CDS)的幾個(gè)屬性逸绎。包括:RNA和核苷酸的長(zhǎng)度(收集Genebank中RNA的特征)


⑦創(chuàng)建以逗號(hào)分隔的表惹恃,列出基因組預(yù)測(cè)的RNA轉(zhuǎn)錄本的幾個(gè)特性。包括:RNA和核苷酸的長(zhǎng)度


⑧從ncbi下載gene_info(基因信息)棺牧,并將其格式化以供進(jìn)一步使用

⑨下載gene2ensembl巫糙,并將其格式化以便進(jìn)一步使用

⑩下載gene2go,并將其格式化以便進(jìn)一步使用


?從NCBI上下載gene2pubmed并將其格式化以便進(jìn)一步使用


?從NCBI中下載generifs_basic颊乘,并將其格式化以便進(jìn)一步使用

?從基因檢測(cè)登記處下載數(shù)據(jù)集


?下載uniprot數(shù)據(jù)庫(kù)参淹,創(chuàng)建完整的uniprot數(shù)據(jù)庫(kù)下載


?準(zhǔn)備Uniprot的ID映射

?從NCBI中下載taxdmp,并將其格式化以便進(jìn)一步使用(taxdmp可以提供物種對(duì)應(yīng)的rank信息)


第二層:這些數(shù)據(jù)集的生成要求首先執(zhí)行第1層函數(shù)(并且成功地創(chuàng)建了相應(yīng)的第1層數(shù)據(jù)集)


①提取關(guān)于染色體的信息

②Flybase黑腹果蠅(Drosophila melanogaster)內(nèi)維持一個(gè)維護(hù)良好的基因表達(dá)集合乏悄。分離單個(gè)數(shù)據(jù)集浙值,如modENCODE組織序列



2019.3.30

③Gerstein實(shí)驗(yàn)室維持了一個(gè)來(lái)自modENCODE的部分過(guò)時(shí)的(在其位點(diǎn)注釋中)基因表達(dá)數(shù)據(jù)集,樣本注釋處于一個(gè)糟糕的狀態(tài)檩小,盡管modENCODE幫助會(huì)轉(zhuǎn)發(fā)/CC它們并對(duì)它們進(jìn)行直接處理亥鸠,但是它們不能為許多樣本提供適當(dāng)?shù)淖⑨尅_@個(gè)函數(shù)將加載秀麗隱桿線蟲(chóng)的官方modENCODE高級(jí)代表


④從NCBI中下載同源基因识啦,并將其格式化以便進(jìn)一步使用

⑤將interpro數(shù)據(jù)庫(kù)以一種易于使用的格式放置负蚊。Interpro是一個(gè)大型數(shù)據(jù)庫(kù),它聯(lián)合了幾個(gè)關(guān)于蛋白質(zhì)的數(shù)據(jù)庫(kù)颓哮。注意家妆,單個(gè)數(shù)據(jù)庫(kù)可以有引用相同interpro ID的條目(因此具有相同的蛋白質(zhì)屬性)。


⑥參考蛋白質(zhì)數(shù)據(jù)庫(kù)冕茅,提取分類(lèi)單元特異性FASTA文件伤极。


第三層函數(shù):特征的注釋


提取氨基酸的性質(zhì)(包括衍生性質(zhì),如gravy和等電點(diǎn))姨伤,并將結(jié)果保存為逗號(hào)分隔的文件哨坪。


第四層函數(shù):


①?gòu)囊粋€(gè)分類(lèi)單元的基因特異性計(jì)算中獲得最佳排列的RADAR預(yù)測(cè)(分子內(nèi)相似性),并將其保存為逗號(hào)分隔的文件


②從一個(gè)taxon的特異性基因的計(jì)算中獲得SEG(序列復(fù)雜度)乍楚,并將其保存為逗號(hào)分隔的文件当编,以便使用中位數(shù)映射到ncbi_gene_id


③從一個(gè)taxon的基因特異性計(jì)算中獲得?signalP(信號(hào)肽和多跨膜),并將其保存為逗號(hào)分隔的文件


支持函數(shù):這些支持性函數(shù)我認(rèn)為是用來(lái)整理上面那些函數(shù)所下載的數(shù)據(jù)


①提取蛋白質(zhì)氨基酸序列和性質(zhì)徒溪。忽略并去除未定義的氨基酸忿偷,基本上只留下略微截短的蛋白質(zhì)


②檢查給定序列是否以起始密碼子開(kāi)始金顿,以終止密碼子結(jié)束,并由三的整數(shù)倍數(shù)組成鲤桥,這表明不存在移碼揍拆。


③計(jì)算腺嘌呤、胞嘧啶茶凳、鳥(niǎo)嘌呤和胸腺嘧啶的含量

計(jì)數(shù)胞嘧啶+鳥(niǎo)嘌呤分?jǐn)?shù)(CG含量)

計(jì)算腺嘌呤嫂拴、胞嘧啶、鳥(niǎo)嘌呤和胸腺嘧啶的總數(shù)(忽略未定義的核苷酸)


④將解析一個(gè)限定符列表并返回ncbi基因ID贮喧。如果基因ID不明確顷牌,或者沒(méi)有找到,將返回nan(從限定符號(hào)列表中提取NCBI中基因的ID號(hào))


⑤從uniprot表頭中提取uniprot ID

⑥獲取密碼子選擇偏倚的幾個(gè)指標(biāo)

⑦計(jì)算標(biāo)準(zhǔn)密碼子的使用情況塞淹。

⑧seg的解析輸出(低緊度提取程序)

⑨檢查一個(gè)序列是否只由已知的ACGT核苷酸組成

⑩在給定字典中的每個(gè)鍵名前插入前綴和_

?提取單個(gè)蛋白序列(屬于taxon_id定義的分類(lèi)單元)作為FASTA,用于啟動(dòng)批處理(例如:通過(guò)RADAR)罪裹,將忽略蛋白質(zhì)片段饱普。

?提取屬于taxon_id定義的分類(lèi)單元的蛋白質(zhì)序列,作為FASTA(例如:用于SEG處理)状共。忽略蛋白質(zhì)片段套耕。

?在描述中沒(méi)有找到返回wheter(片段)

?將包含表達(dá)數(shù)據(jù)的gerstein lab excel文件加載到panda數(shù)據(jù)流中;刪除不需要的額外列

?加載完全映射的Uniprot

?檢索到uniprot數(shù)據(jù)庫(kù)(如swiss-prot或trmbl)的路徑

?將兩個(gè)數(shù)據(jù)格式保存到同一個(gè)文件夾中,第一個(gè)數(shù)據(jù)格式具有postfix_orig峡继,而另一個(gè)數(shù)據(jù)格式具有postfix _ncbi_gene冯袍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市碾牌,隨后出現(xiàn)的幾起案子康愤,更是在濱河造成了極大的恐慌,老刑警劉巖舶吗,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件征冷,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡誓琼,警方通過(guò)查閱死者的電腦和手機(jī)检激,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腹侣,“玉大人叔收,你說(shuō)我怎么就攤上這事“亮ィ” “怎么了饺律?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)跺株。 經(jīng)常有香客問(wèn)我蓝晒,道長(zhǎng)腮出,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任芝薇,我火速辦了婚禮胚嘲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘洛二。我一直安慰自己馋劈,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布晾嘶。 她就那樣靜靜地躺著妓雾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪垒迂。 梳的紋絲不亂的頭發(fā)上械姻,一...
    開(kāi)封第一講書(shū)人閱讀 52,475評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音机断,去河邊找鬼楷拳。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吏奸,可吹牛的內(nèi)容都是我干的欢揖。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼奋蔚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼她混!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起泊碑,我...
    開(kāi)封第一講書(shū)人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤坤按,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后馒过,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體晋涣,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年沉桌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了谢鹊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡留凭,死狀恐怖佃扼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蔼夜,我是刑警寧澤兼耀,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響瘤运,放射性物質(zhì)發(fā)生泄漏窍霞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一拯坟、第九天 我趴在偏房一處隱蔽的房頂上張望但金。 院中可真熱鬧,春花似錦郁季、人聲如沸冷溃。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)似枕。三九已至,卻和暖如春年柠,著一層夾襖步出監(jiān)牢的瞬間凿歼,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工冗恨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留答憔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓派近,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親洁桌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子渴丸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容