Fastq & Fasta
- Fastq格式:一種基于文本的首昔,保存生物序列(通常是核酸序列)和其測(cè)序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。
第一行:由‘@’開(kāi)始圈暗,后面跟著序列ID和可選的描述泽铛,序列ID是唯一的;
第二行:堿基序列北发;
第三行:由‘+’開(kāi)始纹因,后面是序列的描述信息;
第四行:第二行序列的質(zhì)量評(píng)價(jià)(quality value) - Fasta格式:
(1):以“>”為開(kāi)頭琳拨,fasta格式標(biāo)志瞭恰。
(2):序列ID號(hào),gi號(hào)狱庇,NCBI數(shù)據(jù)庫(kù)的標(biāo)識(shí)符惊畏,具有唯一性。
格式為:gi|gi號(hào)|來(lái)源標(biāo)志|序列標(biāo)志(接收號(hào)密任、名稱(chēng)等)颜启,若某項(xiàng)缺失可以留空,“|”保留浪讳。
(3):序列描述缰盏。
(4):堿基序列,序列中允許空格淹遵、換行口猜、空行,一般一行60個(gè) - Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
?一款用于處理Short-Reads FASTA/FASTQ文件的程序透揣,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換济炎、統(tǒng)計(jì)等命令。
http://hannonlab.cshl.edu/fastx_toolkit/
![![