一:geisen_main_v1_2_1文件夾
(1)geisen_main_v1_2_1/src/geisen/downloader.py :
主要函數(shù):
①download_data_set? :用于異構(gòu)下載猜谚。
輸入文件為:name_of_dataset string 和folder_contains_dots彤悔,
輸出文件:locations_of_storage,一個(gè)包含每個(gè)文件的存儲(chǔ)路徑列表
②download_genome: 用于基因組文件下
② download_genome:下載taxon_of_interest的基因組信息
輸入文件: taxon_of_interest中ncbi分類(lèi)法的 ID號(hào)
? ? ? ? ? ? ? ? ? subset_of_interest NIH使用的擴(kuò)展
輸出文件:p_out
使用的數(shù)據(jù)資源為:基因,來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/
GCF_000001405.36_GRCh38.p10)
(2)geisen_main_v1_2_1/src/geisen/settings.py:這個(gè)文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下載相關(guān)參數(shù)設(shè)置
(3)geisen_main_v1_2_1/src/geisen/genealacart.py :這個(gè)模塊包含了提取特定數(shù)據(jù)集的工具泵额,它對(duì)下載的數(shù)據(jù)進(jìn)行了整理始赎。具體有以下幾點(diǎn):
①將從genealacard加載選定的數(shù)據(jù)集并以與生物學(xué)項(xiàng)目科學(xué)一致的格式導(dǎo)出
②加載genealacart數(shù)據(jù)集
③從ENCODE中加載增強(qiáng)子。并將它們放在可由gene_ncbi索引的格式中
④獲取GIFT得分,它表示數(shù)據(jù)庫(kù)中出現(xiàn)基因的部分勺远。被genealacart用作基因一般注釋密度的代理。
⑤加載啟動(dòng)子中的轉(zhuǎn)錄因子
⑥加載不耐受指標(biāo)时鸵。并將它們放置在gene_ncbi可索引的格式中
⑦加載疾病指標(biāo)。并將它們放在可由gene_ncbi索引的格式中厅瞎。
⑧加載人類(lèi)表型本體論饰潜。并將它們放在可由gene_ncbi索引的格式中
⑨獲取具有明確Input Term, Symbol 和 Entrez Gene
⑩創(chuàng)建數(shù)據(jù)庫(kù),其中一列中的條目分隔為多行
(4)geisen_main_v1_2_1/src/geisen/gxa.py:從Matt Antalek (Rick Morimoto實(shí)驗(yàn)室)下載了幾種模型生物的170222組織數(shù)據(jù)和簸。
(5)geisen_main_v1_2_1/src/geisen/mapper.py(該文件是對(duì)下載的數(shù)據(jù)進(jìn)行處理)
該文件夾中包含了以下這些功能:
①將ensembl基因ID映射到NCBI (Entrez)基因ID彭雾。只考慮ensembl和entrez基因id的明確1:1映射
②將位點(diǎn)標(biāo)記映射到NCBI的 (Entrez)基因ID。只考慮明確的 1:1映射锁保。
③通過(guò)unprot (swissprot and trembl)在ncbi分類(lèi)法IDs和分類(lèi)單元名稱(chēng)之間手動(dòng)檢索查找
⑤將ensembl轉(zhuǎn)錄本ID映射到NCBI (Entrez)基因ID薯酝。
⑥將帶有基因符號(hào)id的數(shù)據(jù)流映射到gene_ncbi
⑦將帶有uniprot_protein IDs的數(shù)據(jù)結(jié)構(gòu)映射到gene_ncbi
⑧對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分組,并返回按gene_ncbi進(jìn)行分組的數(shù)據(jù)結(jié)構(gòu)爽柒,并通過(guò)how進(jìn)行匯總
⑨檢查索引或給定數(shù)據(jù)框架df列的 id_name 的存在吴菠,如果id是不明確的(出現(xiàn)在索引和列中)或不存在,將拋出錯(cuò)誤
⑩獲取一個(gè)系列中的重復(fù)值
2019.3.29
(6)geisen_main_v1_2_1/src/geisen/papers.py
該文件是從過(guò)去發(fā)表的出版物中提取一些適當(dāng)?shù)奶卣骱拼澹糜跈C(jī)器學(xué)習(xí)做葵。
如:
①?gòu)腂lomen等人提取合適的表型并將其與NCBI gene ID一起保存,只能檢索CRISPR cassettes的插入心墅,并且將對(duì)KBM7和HAP1細(xì)胞進(jìn)行檢索酿矢。
②從Hart等人提取合適的表型并將其與NCBI gene ID一起保存。
③Itzhak等人于2016年測(cè)量了HeLa細(xì)胞的蛋白質(zhì)定位和豐度
④由Lek等人于2016年出版的ExAc數(shù)據(jù)庫(kù)
⑤處理Rolland等人2014年的補(bǔ)充數(shù)據(jù)怎燥。輸出其考慮的基因瘫筐,計(jì)算相互作用和相互作用的二進(jìn)制表
⑥人類(lèi)基因?qū)@麛?shù)據(jù)。注意铐姚,公司通常為一個(gè)n-mer序列及其變體申請(qǐng)專(zhuān)利策肝,因此他們實(shí)際上并不為單個(gè)基因申請(qǐng)專(zhuān)利,而是為與基因有一定相似性的序列申請(qǐng)專(zhuān)利谦屑。
⑦人蛋白質(zhì)圖譜的蛋白質(zhì)亞細(xì)胞定位
⑧形成人類(lèi)蛋白質(zhì)圖譜RNA 轉(zhuǎn)錄本數(shù)據(jù)驳糯。
⑨Wang等人。(功能缺失突變監(jiān)測(cè)適應(yīng)性)
⑩將具有標(biāo)稱(chēng)值的PANDAS數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為具有布爾值分類(lèi)的PANDAS數(shù)據(jù)結(jié)構(gòu)氢橙。
(7)geisen_main_v1_2_1/src/geisen/prepare.py:該文件夾是下載數(shù)據(jù)和收集各種特征等準(zhǔn)備工作
使用的數(shù)據(jù)資源有:
基因酝枢,來(lái)自基因組RNA的編碼序列和經(jīng)驗(yàn)證的RNA序列獲自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)
基因和染色體的名稱(chēng)于2017年初從NCBI NIH獲得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)。
第一層:下載數(shù)據(jù)并生成相應(yīng)的數(shù)據(jù)集
①?gòu)腷iogrid下載蛋白質(zhì)相互作用數(shù)據(jù)庫(kù):
②從ncbi下載生物系統(tǒng)悍手,并將其格式化以供進(jìn)一步使用帘睦。生物系統(tǒng)在NCBI上具有兩個(gè)版本(有GO注釋和沒(méi)有GO注釋)袍患,這里沒(méi)有GO的版本用于避免與gene2go重復(fù)
③將生物系統(tǒng)按taxon分開(kāi)
④創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表,列出基因的基本屬性(例如:GC內(nèi)容竣付、長(zhǎng)度)
⑤創(chuàng)建以逗號(hào)分隔的表诡延,其中列出了經(jīng)過(guò)驗(yàn)證的RNA轉(zhuǎn)錄本的幾個(gè)屬性。包括:RNA的長(zhǎng)度和編碼序列古胆,RNA中的核苷酸和編碼序列肆良,密碼子偏倚的度量
⑥創(chuàng)建特定于分類(lèi)單元的逗號(hào)分隔表,列出RNA轉(zhuǎn)錄本的預(yù)測(cè)編碼序列(CDS)的幾個(gè)屬性逸绎。包括:RNA和核苷酸的長(zhǎng)度(收集Genebank中RNA的特征)
⑦創(chuàng)建以逗號(hào)分隔的表惹恃,列出基因組預(yù)測(cè)的RNA轉(zhuǎn)錄本的幾個(gè)特性。包括:RNA和核苷酸的長(zhǎng)度
⑧從ncbi下載gene_info(基因信息)棺牧,并將其格式化以供進(jìn)一步使用
⑨下載gene2ensembl巫糙,并將其格式化以便進(jìn)一步使用
⑩下載gene2go,并將其格式化以便進(jìn)一步使用
?從NCBI上下載gene2pubmed并將其格式化以便進(jìn)一步使用
?從NCBI中下載generifs_basic颊乘,并將其格式化以便進(jìn)一步使用
?從基因檢測(cè)登記處下載數(shù)據(jù)集
?下載uniprot數(shù)據(jù)庫(kù)参淹,創(chuàng)建完整的uniprot數(shù)據(jù)庫(kù)下載
?準(zhǔn)備Uniprot的ID映射
?從NCBI中下載taxdmp,并將其格式化以便進(jìn)一步使用(taxdmp可以提供物種對(duì)應(yīng)的rank信息)
第二層:這些數(shù)據(jù)集的生成要求首先執(zhí)行第1層函數(shù)(并且成功地創(chuàng)建了相應(yīng)的第1層數(shù)據(jù)集)
①提取關(guān)于染色體的信息
②Flybase黑腹果蠅(Drosophila melanogaster)內(nèi)維持一個(gè)維護(hù)良好的基因表達(dá)集合乏悄。分離單個(gè)數(shù)據(jù)集浙值,如modENCODE組織序列
2019.3.30
③Gerstein實(shí)驗(yàn)室維持了一個(gè)來(lái)自modENCODE的部分過(guò)時(shí)的(在其位點(diǎn)注釋中)基因表達(dá)數(shù)據(jù)集,樣本注釋處于一個(gè)糟糕的狀態(tài)檩小,盡管modENCODE幫助會(huì)轉(zhuǎn)發(fā)/CC它們并對(duì)它們進(jìn)行直接處理亥鸠,但是它們不能為許多樣本提供適當(dāng)?shù)淖⑨尅_@個(gè)函數(shù)將加載秀麗隱桿線蟲(chóng)的官方modENCODE高級(jí)代表
④從NCBI中下載同源基因识啦,并將其格式化以便進(jìn)一步使用
⑤將interpro數(shù)據(jù)庫(kù)以一種易于使用的格式放置负蚊。Interpro是一個(gè)大型數(shù)據(jù)庫(kù),它聯(lián)合了幾個(gè)關(guān)于蛋白質(zhì)的數(shù)據(jù)庫(kù)颓哮。注意家妆,單個(gè)數(shù)據(jù)庫(kù)可以有引用相同interpro ID的條目(因此具有相同的蛋白質(zhì)屬性)。
⑥參考蛋白質(zhì)數(shù)據(jù)庫(kù)冕茅,提取分類(lèi)單元特異性FASTA文件伤极。
第三層函數(shù):特征的注釋
提取氨基酸的性質(zhì)(包括衍生性質(zhì),如gravy和等電點(diǎn))姨伤,并將結(jié)果保存為逗號(hào)分隔的文件哨坪。
第四層函數(shù):
①?gòu)囊粋€(gè)分類(lèi)單元的基因特異性計(jì)算中獲得最佳排列的RADAR預(yù)測(cè)(分子內(nèi)相似性),并將其保存為逗號(hào)分隔的文件
②從一個(gè)taxon的特異性基因的計(jì)算中獲得SEG(序列復(fù)雜度)乍楚,并將其保存為逗號(hào)分隔的文件当编,以便使用中位數(shù)映射到ncbi_gene_id
③從一個(gè)taxon的基因特異性計(jì)算中獲得?signalP(信號(hào)肽和多跨膜),并將其保存為逗號(hào)分隔的文件
支持函數(shù):這些支持性函數(shù)我認(rèn)為是用來(lái)整理上面那些函數(shù)所下載的數(shù)據(jù)
①提取蛋白質(zhì)氨基酸序列和性質(zhì)徒溪。忽略并去除未定義的氨基酸忿偷,基本上只留下略微截短的蛋白質(zhì)
②檢查給定序列是否以起始密碼子開(kāi)始金顿,以終止密碼子結(jié)束,并由三的整數(shù)倍數(shù)組成鲤桥,這表明不存在移碼揍拆。
③計(jì)算腺嘌呤、胞嘧啶茶凳、鳥(niǎo)嘌呤和胸腺嘧啶的含量
計(jì)數(shù)胞嘧啶+鳥(niǎo)嘌呤分?jǐn)?shù)(CG含量)
計(jì)算腺嘌呤嫂拴、胞嘧啶、鳥(niǎo)嘌呤和胸腺嘧啶的總數(shù)(忽略未定義的核苷酸)
④將解析一個(gè)限定符列表并返回ncbi基因ID贮喧。如果基因ID不明確顷牌,或者沒(méi)有找到,將返回nan(從限定符號(hào)列表中提取NCBI中基因的ID號(hào))
⑤從uniprot表頭中提取uniprot ID
⑥獲取密碼子選擇偏倚的幾個(gè)指標(biāo)
⑦計(jì)算標(biāo)準(zhǔn)密碼子的使用情況塞淹。
⑧seg的解析輸出(低緊度提取程序)
⑨檢查一個(gè)序列是否只由已知的ACGT核苷酸組成
⑩在給定字典中的每個(gè)鍵名前插入前綴和_
?提取單個(gè)蛋白序列(屬于taxon_id定義的分類(lèi)單元)作為FASTA,用于啟動(dòng)批處理(例如:通過(guò)RADAR)罪裹,將忽略蛋白質(zhì)片段饱普。
?提取屬于taxon_id定義的分類(lèi)單元的蛋白質(zhì)序列,作為FASTA(例如:用于SEG處理)状共。忽略蛋白質(zhì)片段套耕。
?在描述中沒(méi)有找到返回wheter(片段)
?將包含表達(dá)數(shù)據(jù)的gerstein lab excel文件加載到panda數(shù)據(jù)流中;刪除不需要的額外列
?加載完全映射的Uniprot
?檢索到uniprot數(shù)據(jù)庫(kù)(如swiss-prot或trmbl)的路徑
?將兩個(gè)數(shù)據(jù)格式保存到同一個(gè)文件夾中,第一個(gè)數(shù)據(jù)格式具有postfix_orig峡继,而另一個(gè)數(shù)據(jù)格式具有postfix _ncbi_gene冯袍。