2018-06-09第一階段-fungi文件的檢查

一共有1035個文件夾(基因組),據(jù)說只有777個蛋白質(zhì)憔狞,嚴(yán)格來說只有三個基因組是各自都有兩個aa序列,昨天已經(jīng)刪除她們的就版本税产,于是篩選的話一共就只有777-3 = 774個基因組摊灭。
按照文件夾包含文件數(shù)量從小到達(dá)排序:
文件夾數(shù)目 數(shù)量
1 148

打印所有文件夾數(shù)量只有一個文件的腳本:

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            filenum = len(files1)
            if filenum == 1:
                print (files1)

找到之后咆贬,查看結(jié)果,發(fā)現(xiàn)都只有Repeatedmasked.fasta.gz 或者 .masked.fasta.gz 結(jié)尾的文件帚呼,把他們都刪掉掏缎,因?yàn)樗麄兌贾皇腔蛐蛄校⒉皇堑鞍踪|(zhì)序列煤杀。

接下來去尋找文件夾里面沒有蛋白質(zhì)序列的文件夾:

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            tag = 0
            for onefile in files1:
                if onefile.endswith(".fasta"):
                    tag = 1
                    break
            if tag == 0:
                print (mydir)

將沒有蛋白質(zhì)序列的文件移出去

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            number  = 0
            for onefile in files1:
                if onefile.endswith(".fasta"):
                    number = number + 1
            if number ==0:
                os.system('mv fungi/'+mydir+' fungi_without_aa/'+mydir)

于是就剩下774個基因組文件夾眷蜈。這些文件夾有的沒有g(shù)ff文件,需要今后進(jìn)一步進(jìn)行篩選沈自,目前還不清楚要不要篩選出來酌儒。
先把這774個基因組下面蛋白質(zhì)的一些奇啪名字都改掉!?萃尽忌怎!
比如有一些叫做allModels.aa.fasta的,搞不清它是啥物種酪夷,趕緊改掉改掉A裥ァ!晚岭!
1.把基因組目錄下面的文件的文件名都改成物種文件名鸥印。

  1. 將所有的aa以_all字符串為分割字符,將All改成小寫all.
    接下來可以重新跑良玉的代碼腥例,跑完之后進(jìn)入到跑diamond的階段辅甥。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市燎竖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌要销,老刑警劉巖构回,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疏咐,居然都是意外死亡纤掸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門浑塞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來借跪,“玉大人,你說我怎么就攤上這事酌壕√统睿” “怎么了歇由?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長果港。 經(jīng)常有香客問我沦泌,道長,這世上最難降的妖魔是什么辛掠? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任谢谦,我火速辦了婚禮,結(jié)果婚禮上萝衩,老公的妹妹穿的比我還像新娘回挽。我一直安慰自己,他們只是感情好猩谊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布千劈。 她就那樣靜靜地躺著,像睡著了一般预柒。 火紅的嫁衣襯著肌膚如雪队塘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天宜鸯,我揣著相機(jī)與錄音憔古,去河邊找鬼。 笑死淋袖,一個胖子當(dāng)著我的面吹牛鸿市,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播即碗,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼焰情,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了剥懒?” 一聲冷哼從身側(cè)響起内舟,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎初橘,沒想到半個月后验游,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡保檐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年耕蝉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夜只。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡垒在,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扔亥,到底是詐尸還是另有隱情场躯,我是刑警寧澤谈为,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站推盛,受9級特大地震影響峦阁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜耘成,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一榔昔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瘪菌,春花似錦撒会、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至默穴,卻和暖如春怔檩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蓄诽。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工薛训, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人仑氛。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓乙埃,卻偏偏與公主長得像,于是被迫代替她去往敵國和親锯岖。 傳聞我的和親對象是個殘疾皇子介袜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容