cutadapt用法案例

詳細(xì)的教程官方已經(jīng)給出贮缕。
這里記錄自己常用的方法:

安裝方法:用Python3安裝就可以使用多核參數(shù)姥份。
sudo python3 -m pip install --user --upgrade cutadapt

什么是 3’接頭凡伊,就是一段序列之后跟了adapter可帽。 XXXXXXXXXXXXXXadapter
什么是 5’接頭钾军,就是adapter在序列開始鳄袍。 adapterXXXXXXXXXXXXXX

假如說我的情況屬于第一種。就使用-a參數(shù),接頭和隨后的序列將都被trim掉吏恭。
屬于第二種拗小,就使用-g參數(shù),接頭和接頭之前的序列都被trim掉樱哼。
默認(rèn)adapter的錯誤率為10%哀九,通過-e參數(shù)修改。結(jié)果文件非壓縮唇礁。

舉例:

cutadapt -a adapter=ATATCCAGAACCCTGACCCTGCCGTGTACCAGCTGAC -O 10  -o  G18E2L2_R1.p1.fq  -r  R1.p2.fq --info-file=R1.cutadapt.log  /your/fastq/fastq_1.fq.gz > R1.cutadapt.stats
cutadapt -g adapter=CACAGCGACCTCGGGTGGGAACACCTTGTTCAGGTCT -O 10  -o  G18E2L2_R2.p1.fq  -r  R2.p2.fq --info-file=R2.cutadapt.log  /your/fastq/fastq_2.fq.gz > R2.cutadapt.stats

-O --overlap=MINLENGTH  : Require MINLENGTH overlap between read and adapter for an adapter to be found. Default: 3
-o  output.fastq
-r  FILE, --rest-file=FILE  When the adapter matches in the middle of a read, write the rest (after the adapter) to FILE.
--info-file=FILE    Write information about each read and its adapter matches into FILE. See the documentation for the file format.
-j CORES, --cores=CORES Number of CPU cores to use. Use 0 to auto-detect. Default: 1  python2 下不能使用多核勾栗。
-a ADAPTER, --adapter=ADAPTER  Sequence of an adapter ligated to the 3' end (paired data: of the first read). The adapter and subsequent bases are trimmed. If a '$' character is appended
                        ('anchoring'), the adapter is only found if it is a  suffix of the read.
-g ADAPTER, --front=ADAPTER  Sequence of an adapter ligated to the 5' end (paired data: of the first read). The adapter and any preceding bases are trimmed. Partial matches at the 5'
                        end are allowed. If a '^' character is prepended ('anchoring'), the adapter is only found if it is a prefix of the read.
-b ADAPTER, --anywhere=ADAPTER Sequence of an adapter that may be ligated to the 5' or 3' end (paired data: of the first read). Both types of matches as described under -a and -g are allowed.
                        If the first base of the read is part of the match, the behavior is as with -g, otherwise as with -a. This option is mostly for rescuing failed library preparations
                        - do not use if you know which end your adapter was ligated to!
模糊匹配或容錯:
-e RATE, --error-rate=RATE   Maximum allowed error rate as value between 0 and 1 (no. of errors divided by length of matching region). Default: 0.1 (=10%)
For paired-end reads:
    cutadapt -a ADAPT1 -A ADAPT2 [options] -o out1.fastq -p out2.fastq in1.fastq in2.fastq

參數(shù):-O MINLENGTH, --overlap=MINLENGTH
Require MINLENGTH overlap between read and adapter for an adapter to be found.
Default: 3
-r:表示將截掉的序列保存在R2.p2.fq文件中。
--info-file:輸出log文件盏筐。
stat文件是記錄adapter的詳細(xì)過程围俘,最好像我一樣重定向到一個文件方便日后查看。默認(rèn)屏幕輸出琢融。

stat文件部分內(nèi)容截圖

cutadapt結(jié)果默認(rèn)會trim掉adapter和adapter之后(3'的話是之前)的序列界牡,所以,如果你只想切掉adapter漾抬,想保留adapter之前和之后的序列宿亡,那么就需要從log文件中提取出序列來了。

cutadapt結(jié)果log文件處理:
log文件格式是以下這樣子的纳令。


log文件

這里面存儲著三種類型的格式挽荠。

實(shí)用腳本1:

將cutadapt 生成的log 中的adapter前后的reads分別輸出不同的文件中備用克胳。
就是可以將adapter兩端的reads分別輸出到p1,和p2文件中圈匆。
用法:腳本自己寫的漠另,很實(shí)用!
python deal_cutadapt_log.py -l xxx.cutadapt.log -d /result/dir/
就會得到
xxx.p1.fq 和 xxx.p2.fq兩個文件跃赚,代表著adapter之前序列和adapter之后序列笆搓。
-f 參數(shù)還可以選擇保留或者刪除log文件中沒有adapter 的序列。

usage: deal_cutadapt_log.py [-h] -l LOG_FILE [-d RESULT_DIR] [-f] [-v]

This is description

optional arguments:
  -h, --help            show this help message and exit
  -l LOG_FILE, --log LOG_FILE
                        input read1 file
  -d RESULT_DIR, --dir RESULT_DIR
                        input read2 file
  -f, --flag            means to contains -l flag in output.
  -v, --version         show program's version number and exit

實(shí)用腳本2:

批量統(tǒng)計(jì)cutadapt.stats文件信息:輸入為路徑纬傲,就會統(tǒng)計(jì)該路徑下的所有stats文件中的相關(guān)信息满败。

python statistic_basic_info.py ./
sample  Total reads processed   Reads with adapters
G34E3L1 10,934,616      10,455,685 (95.6%)

非常好用。

點(diǎn)贊送腳本叹括!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末算墨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子领猾,更是在濱河造成了極大的恐慌米同,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件摔竿,死亡現(xiàn)場離奇詭異面粮,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)继低,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門熬苍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人袁翁,你說我怎么就攤上這事柴底。” “怎么了粱胜?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵柄驻,是天一觀的道長。 經(jīng)常有香客問我焙压,道長鸿脓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任涯曲,我火速辦了婚禮野哭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘幻件。我一直安慰自己拨黔,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布绰沥。 她就那樣靜靜地躺著篱蝇,像睡著了一般贺待。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上态兴,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天狠持,我揣著相機(jī)與錄音,去河邊找鬼瞻润。 笑死,一個胖子當(dāng)著我的面吹牛甜刻,可吹牛的內(nèi)容都是我干的绍撞。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼得院,長吁一口氣:“原來是場噩夢啊……” “哼傻铣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起祥绞,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤非洲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蜕径,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體两踏,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年兜喻,在試婚紗的時候發(fā)現(xiàn)自己被綠了梦染。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡朴皆,死狀恐怖帕识,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情遂铡,我是刑警寧澤肮疗,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站扒接,受9級特大地震影響伪货,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜珠增,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一超歌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蒂教,春花似錦巍举、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蜓谋。三九已至,卻和暖如春炭分,著一層夾襖步出監(jiān)牢的瞬間桃焕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工捧毛, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留观堂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓呀忧,卻偏偏與公主長得像师痕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子而账,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容