2020-01-11 了解FASTQ格式并處理FASTQ文件

FASTQ文件格式是測序儀展示數(shù)據(jù)的標(biāo)準(zhǔn)格式，可以看成FASTA文件的變種（FASTA+Q）残腌，因?yàn)槠浒藢?duì)序列中每個(gè)堿基的Qualify Measurement凌盯。（如：堿基A出錯(cuò)的可能性是1/1000）

FASTQ格式詳述

FASTQ格式包括4個(gè)部分徐矩，每個(gè)部分1行粮宛，格式同F(xiàn)ASTA相似窥淆，但缺陷也更多：

類似FASTA的頭部卖宠，以@而非>起始，后跟ID和描述文本
測定的序列忧饭，通常為1行扛伍，但有時(shí)也會(huì)換行，最后以+指示下一部分
由+表示（后面有時(shí)會(huì)跟著和第一部分相同的id和header）
編碼第2部分測定序列的質(zhì)量值眷昆，長度必須同第2部分相同蜒秤，換行方式也要同第2部分相同

第4部分看著有點(diǎn)奇怪，其實(shí)是通過轉(zhuǎn)碼將兩位數(shù)字的Phred Score轉(zhuǎn)換為1個(gè)字符的Quality Score

第一行為FASTQ quality codes
第二行為Quality Score (Q)/Phred Score (P)

Sanger(+33)格式

錯(cuò)誤率公式：Error=10?(-P/10)

編碼為I亚斋，P=40，錯(cuò)誤率為10^(-40/10)=0.01%

以前還用過一種老的+64格式的FASTQ編碼：

如果你的FASTQ文件中Quality Score為小寫攘滩，代表你的FASTQ是老版本

可以使用seqtk命令進(jìn)行轉(zhuǎn)換
seqtk seq -Q64 input.fq > output.fa

FASTQ文件header中的額外信息

參考維基百科fastq format詞條

EAS139：儀器帅刊，
136：run編號(hào)，
FC706VJ：流通池編號(hào)漂问，
2：泳道赖瞒，
2104：tile編號(hào)，
(15343,197393)：xy坐標(biāo)蚤假，
1: the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y: Y if the read is filtered, N otherwise
18: 0 when none of the control bits are on, otherwise it is an even number
ATCACG指索引序列
此信息針對(duì)特定儀器/供應(yīng)商栏饮，可能會(huì)隨儀器的不同版本或版本而變化。但對(duì)于回答可能影響儀器的質(zhì)量控制或系統(tǒng)性技術(shù)問題是很有用的磷仰。

通過命令行轉(zhuǎn)換FASTQ質(zhì)量編碼

略袍嬉，在書p185

進(jìn)階FASTQ處理

介紹使用SeqKit操作FASTA/Q，SeqKit支持FASTA/Q文件和FASTA/Q的壓縮格式：

seqkit命令

seqkit的學(xué)習(xí)筆記可參考

《fasta/fq文件處理萬能工具——Seqkit學(xué)習(xí)記錄》http://www.reibang.com/p/f0e65738b7c7

還需要使用csvtk（CSV/TSV）：
下載
https://github.com/shenwei356/csvtk/releases
安裝csvtk的方式：
https://bioinf.shenwei.me/csvtk/#installation

#作者目前尚不推薦使用conda進(jìn)行安裝
curl http://app.shenwei.me/data/csvtk/csvtk_linux_amd64.tar.gz > csvtk_linux_amd64.tar.gz
tar -zxvf csvtk_linux_amd64.tar.gz
sudo cp csvtk bin

1. 示例數(shù)據(jù)

使用一個(gè)FASTQ文件（Sample Reads灶平，1M）和兩個(gè)FASTA文件（NCBI RefSeq數(shù)據(jù)庫中的病毒DNA和蛋白質(zhì)序列伺通，60M+40M）。

#wget -nc指若要覆蓋已有文件則不要下載
wget -nc http://data.biostarhandbook.com/reads/duplicated-reads.fq.gz
wget -nc ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.2.1.genomic.fna.gz
wget -nc ftp://ftp.ncbi.nih.gov/refseq/release/viral/viral.2.protein.faa.gz
# fna文件和faa文件
# *.fna = FASTA Nucleic Acid file
# *.faa = FASTA Amino Acid file

2. FASTQ文件概覽

seqkit stat *.gz

3. 得到GC含量

seqkit fx2tab將FASTA/Q轉(zhuǎn)換為3列表格形式（1:名稱/ID逢享，2:序列罐监，3:質(zhì)量），還可以在新列中提供各種信息瞒爬，包括序列長度弓柱、GC內(nèi)容/GC skew、alphabet
seqkit fx2tab -n -i -g viral.2.1.genomic.fna.gz | head
-n, --name only print names (no sequences and qualities)
-i, --only-id print ID instead of full head
-g, --gc print GC content
可以嘗試分別去掉這些參數(shù)

4. 得到感興趣堿基的含量

假設(shè)想要獲得A侧但、C矢空、A+C的含量
seqkit fx2tab -H -n -i -B a -B c -B ac viral.2.1.genomic.fna.gz | head -5
-H, --header-line輸出header line
-B, --base-content strings 輸出堿基含量，忽略大小寫俊犯，支持N等alphabet

5. 抽出部分序列和name/list文件

seqkit sample 根據(jù)數(shù)量或比例對(duì)序列進(jìn)行抽樣
-n, --number int 根據(jù)數(shù)量抽樣（匹配可能不精確）
-p, --proportion float 根據(jù)比例抽樣

seqkit seq seq命令對(duì)序列進(jìn)行操作妇多， (包括revserse, complement, extract ID等...)
-n, --name 只輸出名字
-i, --only-id 只輸出id而不輸出full head

seqkit sample --proportion 0.001 duplicated-reads.fq.gz | seqkit seq --name --only-id > id.txt
head id.txt #id.txt中的記錄要用于seqkit grep的檢索，格式為每行1個(gè)記錄

seqkit grep 根據(jù)ID/名稱/序列/序列motif檢索序列燕侠，允許錯(cuò)配
-f, --pattern-file string pattern file (one record per line)

seqkit grep --pattern-file id.txt duplicated-reads.fq.gz > duplicated-reads.subset.fq.gz
#用id.txt中的pattern在duplicated-reads.fq.gz中進(jìn)行匹配

6. 找到包含簡并堿基（degenerate base）的序列并定位

seqkit fx2tab --name --only-id --alphabet  viral.1.1.genomic.fna.gz | csvtk --no-header-row --tabs grep --fields 4 --use-regexp --ignore-case --pattern "[^ACGT]"

代碼的長參數(shù)版本

seqkit fx2tab -n -i -a viral.2.1.genomic.fna.gz | csvtk -H -t grep -f 4 -r -i -p "[^ACGT]"

seqkit fx2tab將FASTA / Q轉(zhuǎn)換為表格格式者祖，并可以在新列中輸出序列字母:
-a, --alphabet 輸出alphabet
然后可以使用文本搜索工具來過濾表立莉。
csvtk下的參數(shù)
-H, --no-header-row 輸入的CSV文件沒有header行
-t, --tabsinput CSV file由tabs分隔。覆蓋-d和-D

csvtk grep下的參數(shù)
-f, --fields string comma separated key fields, column name or index. e.g. -f 1-3 or -f id,id2 or -F -f "group" (default "1") 這個(gè)參數(shù)沒看懂
-r, --use-regexp 給出的pattern為正則表達(dá)式
-i, --ignore-case 忽略大小寫
-p, --pattern strings query pattern (multiple values supported) 這個(gè)參數(shù)沒看懂
pattern為"[^ACGT]" 是一個(gè)正則表達(dá)式 這個(gè)正則表達(dá)式?jīng)]看懂

參考博文：《csvtk——CSV_TSV文本處理萬能工具》
http://www.reibang.com/p/3aa6231ed5c3

保存這些包含簡并堿基的序列的ID

seqkit fx2tab -n -i -a viral.2.1.genomic.fna.gz | csvtk -H -t grep -f 4 -r -i -p "[^ACGT]" | csvtk -H -t cut -f 1 > id2.txt

使用seqkit grep命令去除

seqkit grep --pattern-file id2.txt --invert-match viral.1.1.genomic.fna.gz > clean.fa
#或
seqkit grep -P id2.txt --invert-match viral.1.1.genomic.fna.gz > clean.fa

csvtk cut下的參數(shù)
-f, --fields string 僅保留fields中的列七问，例： -f 1,2即保留第1蜓耻、2列

7. 去除包含重復(fù)序列的FASTA/Q記錄

8. 定位FASTA/Q序列中的模體/subsequence/酶消化位點(diǎn)

9. 根據(jù)序列長度排列FASTA/Q序列

10. 根據(jù)header信息spilt FASTA序列

11. 使用文本文件中的character strings在FASTA header中搜索和替換？

12. 從兩個(gè)paired end reads文件中提取paired reads械巡？

13. 連接兩個(gè)FASTA序列

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末刹淌，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子讥耗，更是在濱河造成了極大的恐慌有勾，老刑警劉巖，帶你破解...
沈念sama閱讀 219,039評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件古程，死亡現(xiàn)場離奇詭異蔼卡，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)挣磨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門雇逞，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人茁裙，你說我怎么就攤上這事塘砸。” “怎么了晤锥？”我有些...
開封第一講書人閱讀 165,417評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵掉蔬，是天一觀的道長。經(jīng)常有香客問我查近，道長眉踱，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,868評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任霜威，我火速辦了婚禮谈喳，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘戈泼。我一直安慰自己婿禽，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布大猛。她就那樣靜靜地躺著扭倾，像睡著了一般。火紅的嫁衣襯著肌膚如雪挽绩。梳的紋絲不亂的頭發(fā)上膛壹，一...
開封第一講書人閱讀 51,692評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼模聋。笑死肩民，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的链方。我是一名探鬼主播持痰，決...
沈念sama閱讀 40,416評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼祟蚀！你這毒婦竟也來了工窍？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,326評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤前酿，失蹤者是張志新（化名）和其女友劉穎患雏，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體罢维，經(jīng)...
沈念sama閱讀 45,782評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡纵苛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了言津。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,102評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡取试，死狀恐怖悬槽，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情瞬浓，我是刑警寧澤初婆，帶...
沈念sama閱讀 35,790評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站猿棉，受9級(jí)特大地震影響磅叛，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜萨赁，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一弊琴、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧杖爽，春花似錦敲董、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評(píng)論 0贊 22
一樁弒父案腋寨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至化焕，卻和暖如春萄窜，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,113評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工查刻，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留键兜，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,332評(píng)論 3贊 373
代替公主和親
正文我出身青樓赖阻，卻偏偏與公主長得像蝶押，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子火欧，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評(píng)論 2贊 355