寫在前面
寫一個帖子测暗,慢慢收錄一些看起來似乎很簡單,確實(shí)比較常見的數(shù)據(jù)分析新手的問題磨澡。
為什么一個樣品測序之后偷溺,會對應(yīng)兩個文件?而且兩個文件大小還不同?
雙端測序(PE)本身就是對一個片段的兩個方向分別測一次艘绍。所有一個樣品會對應(yīng)兩個文件腹尖,其中一個是所謂的正向(事實(shí)是,測的第一鏈條俐载,即Forward),常見文件命名會帶有_1
或者.1
;另外一個弃锐,是所謂的反向(事實(shí)是,測的第二鏈殿托,即Reverse Complement)霹菊,常見文件命名會帶有_2
或者.2
。
如下,其中a圖會引物會引導(dǎo)測序旋廷,125個bp鸠按,并產(chǎn)生正向測序讀段文件;c圖中引物會引導(dǎo)測序饶碘,125bp目尖,并產(chǎn)生反向測序讀段文件
正反向都是測同樣長度的讀段,比如125bp扎运,從字符數(shù)目來計算瑟曲,文件似乎應(yīng)該是一樣大。為什么文件大小為什么會不同豪治?比如一個是2.0G洞拨,另一個2.2G。造成這么大差別负拟,主要原因是看到的都是.gz壓縮文件烦衣,壓縮的算法有很多,基本上沒有一個算法是不受文本復(fù)雜度限制的齿椅。正反向記錄的堿基必然是不同的琉挖,至少順序必然是不同的,所以壓縮的效果會有差異涣脚,最后文件大小會有差異示辈。
連接服務(wù)器跑程序,電腦要關(guān)機(jī)遣蚀,任務(wù)跑不完矾麻,怎么辦?
你需要了解一下screen或者tmux這類程序
建議tmux