幾代測序知識和原理

測序原理：

image.png

一代測序（Sanger測序）：

目前一代測序在驗(yàn)證序列（就是平時(shí)送公司測序返回來自己blast的那些）以及驗(yàn)證基因組組裝完整性方面都是金標(biāo)準(zhǔn)珊随。
一代最長能測1000bp，
它一次只測一條秕铛，也就是所謂的通量低
準(zhǔn)確度很高损搬，99.999%

NGS (next generation sequencing )二代測序，又稱下一代測序：

相關(guān)名詞：

flowcell：測序反應(yīng)的載體/容器码荔，1個(gè)flowcell有8個(gè)lane
lane：測序反應(yīng)的平行泳道啥辨，試劑添加焕妙、洗脫等過程的發(fā)生位置
tile：每次熒光掃描的位置，肉眼是看不到的
雙端測序：可能序列比較長有四五百bp沃斤，兩邊各測120-150bp
junction：雙端測序中間一些沒有測到的區(qū)域
flowcell構(gòu)造：一個(gè)lane包含兩列（swath）圣蝎，每一列有60個(gè)tile，每個(gè)tile會種下不同的cluster衡瓶，每個(gè)tile在一次循環(huán)中會拍照4次（每個(gè)堿基一次）

邊合成變測序（sequence by synthesis, SBS）～合成

第一步：構(gòu)建DNA文庫
第二步：上樣
第三步：橋式PCR
第四步：測序

數(shù)據(jù)初步分析：

使用fastqc進(jìn)行質(zhì)量分析徘公，這是一款Java軟件，支持多線程

軟件前期準(zhǔn)備：下載方式有兩種：

1.官網(wǎng)fastqc下載好用filezilla導(dǎo)入linux服務(wù)器

直接在服務(wù)器中運(yùn)行wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip

接著安裝unzip fastqc_v0.11.7.zip --> cd FastQC -- > chmod755 fastqc --> install .

設(shè)置完權(quán)限后鞍陨，還需要將FastQC文件夾（這里請注意是文件夾步淹，而非fastqc這個(gè)可執(zhí)行程序）導(dǎo)入環(huán)境變量

echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc

再source ~/.bashrc檢查軟件是否安裝成功 fastqc --help 出現(xiàn)幫助信息就可以使用啦！

二代測序大幅度提高了測序速度诚撵，降低了測序成本缭裆，保持了高準(zhǔn)確性。缺點(diǎn)是讀長短寿烟，拼接困難澈驼，pcr技術(shù)增加了測序的錯(cuò)誤率.

三代測序（TGS）

第三代測序技術(shù)以PacBio公司的SMRT和Oxford Nanopore Technologies 的納米孔單分子測序技術(shù)為標(biāo)志，不需要經(jīng)過PCR擴(kuò)增筛武，超長讀長缝其，可達(dá)二代測序的100倍以上，實(shí)現(xiàn)了對每一條DNA分子的單獨(dú)測序徘六。錯(cuò)誤率比二代要高内边，達(dá)到10-15%。

三代測序錯(cuò)誤隨機(jī)待锈，平均讀長8 ～25kb 漠其，相對于二代而言，測序成本偏高竿音，同時(shí)測序錯(cuò)誤率偏高和屎。

image.png

測序

1.基因組學(xué)（核酸序列分析）

（1）全基因組測序（WGS）
（2）全外顯子組測序（WES）
（3）簡化基因組測序（RRGS）

作用：

基因組作圖（遺傳圖譜、物理圖譜春瞬、轉(zhuǎn)錄本圖譜）
核苷酸序列分析
基因定位
基因功能分析

其它：以全基因組測序?yàn)槟繕?biāo)的結(jié)構(gòu)基因組學(xué)柴信；以基因功能鑒定為目標(biāo)的功能基因組學(xué)

轉(zhuǎn)錄組學(xué)（基因表達(dá)分析）

（1）mRNA-Seq
（2）IncRNA-Seq（長鏈非編碼RNA）
（3）sRNA-Seq（主要是miRNA-Seq）

作用：

獲得物種或者組織的轉(zhuǎn)錄本信息
得到轉(zhuǎn)錄本上基因的相關(guān)信息，如基因結(jié)構(gòu)功能等
發(fā)現(xiàn)新的基因
基因結(jié)構(gòu)優(yōu)化
發(fā)現(xiàn)可變剪切
發(fā)現(xiàn)基因融合
基因表達(dá)差異分析

蛋白質(zhì)組學(xué)

（1）蛋白質(zhì)組數(shù)據(jù)處理宽气、蛋白及其修飾鑒定
（2）構(gòu)建蛋白質(zhì)數(shù)據(jù)庫随常、相關(guān)軟件的開發(fā)和應(yīng)用
（3）蛋白質(zhì)結(jié)構(gòu)功能預(yù)測
（4）蛋白質(zhì)連鎖圖

代謝組學(xué)

（1）代謝物指紋分析
（2）代謝輪廓分析

測序技術(shù)原理及常用數(shù)據(jù)格式簡介

第一代測序技術(shù)

特點(diǎn)：讀長長（1000 bp）潜沦，準(zhǔn)確性高（99.999%），通量低线罕。

第二代測序技術(shù)

（1）DNA文庫構(gòu)建（2 ）簇的生成——橋式PCR （3）測序（4）數(shù)據(jù)產(chǎn)出

特點(diǎn)：通量高止潮、時(shí)間短、讀長短钞楼。

第三代測序技術(shù)

單分子實(shí)時(shí)DNA測序喇闸。

（1）PacBio 實(shí)時(shí)單分子測序
（2）Complete Genomics公司的復(fù)合探針-錨定連接技術(shù)
（3）Oxford Nanopore 納米孔單分子通道技術(shù)
（4）Ion Torrent電子流檢測技術(shù)

Pacific Biosciences公司的SMRT技術(shù)： SMRT測序速度快（每秒約數(shù)個(gè)dNTP），但是询件，測序錯(cuò)誤率也較高（達(dá)到15%燃乍，可通過多次測序進(jìn)行有效的糾錯(cuò)）。

Oxford Nanopore Technologies公司的納米孔單分子技術(shù)為主流宛琅。

常用數(shù)據(jù)格式

Fastq格式

一種基于文本的刻蟹，保存生物序列（通常是核酸序列）和其測序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。

第一行：由‘@’開始嘿辟，后面跟著序列ID和可選的描述舆瘪，序列ID是唯一的；

第二行：堿基序列红伦；

第三行：由‘+’開始英古，后面是序列的描述信息；

第四行：第二行序列的質(zhì)量評價(jià)(quality value)昙读。

Fasta格式：

（1）以“>”為開頭召调，fasta格式標(biāo)志。
（2）序列ID號蛮浑，gi號唠叛，NCBI數(shù)據(jù)庫的標(biāo)識符，具有唯一性沮稚。
格式為：gi|gi號|來源標(biāo)志|序列標(biāo)志（接收號艺沼、名稱等），若某項(xiàng)缺失可以留空蕴掏，“|”保留障般。
（3）序列描述。
（4）堿基序列囚似，序列中允許空格、換行线得、空行饶唤，一般一行60個(gè)。

格式見間的轉(zhuǎn)化：Fastq文件→Fasta文件

Linux命令

法1：sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2：seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit

一款用于處理Short-Reads FASTA/FASTQ文件的程序贯钩，里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換募狂、統(tǒng)計(jì)等命令办素。

http://hannonlab.cshl.edu/fastx_toolkit/

GenBank格式

以LOCUS和一些注釋行開始。序列的開頭以“ORIGIN”標(biāo)記祸穷，末尾以“//”標(biāo)記

EMBL格式

以標(biāo)識符行（ID）開頭性穿，后面跟著更多注釋行。
序列的開頭以“SQ”開頭標(biāo)記雷滚，序末尾以“//”標(biāo)記需曾。

image.png

EMBL → Fasta格式轉(zhuǎn)換（在線工具）：http://www.geneinfinity.org/sms/sms_embltofasta.html

另外給大家介紹一個(gè)常見測序文件格式解析的網(wǎng)站：
https://genome.ucsc.edu/FAQ/FAQformat.html#format1 （包含了各種各樣的測序文件格式說明）

image.png

參考文獻(xiàn)
https://blog.csdn.net/u010608296/article/details/111658749

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市祈远，隨后出現(xiàn)的幾起案子呆万，更是在濱河造成了極大的恐慌，老刑警劉巖车份，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件谋减，死亡現(xiàn)場離奇詭異，居然都是意外死亡扫沼，警方通過查閱死者的電腦和手機(jī)出爹，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來缎除，“玉大人严就，你說我怎么就攤上這事“檎遥” “怎么了盈蛮？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長技矮。經(jīng)常有香客問我抖誉，道長，這世上最難降的妖魔是什么衰倦？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任袒炉，我火速辦了婚禮，結(jié)果婚禮上樊零，老公的妹妹穿的比我還像新娘我磁。我一直安慰自己，他們只是感情好驻襟，可當(dāng)我...
茶點(diǎn)故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布夺艰。她就那樣靜靜地躺著，像睡著了一般沉衣。火紅的嫁衣襯著肌膚如雪郁副。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天豌习，我揣著相機(jī)與錄音存谎，去河邊找鬼拔疚。笑死，一個(gè)胖子當(dāng)著我的面吹牛既荚，可吹牛的內(nèi)容都是我干的稚失。我是一名探鬼主播，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼恰聘，長吁一口氣：“原來是場噩夢啊……” “哼句各！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起憨琳，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤诫钓，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后篙螟，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菌湃，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年遍略，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了惧所。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,144評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡绪杏，死狀恐怖下愈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蕾久，我是刑警寧澤势似，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站僧著，受9級特大地震影響履因，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜盹愚，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一栅迄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧皆怕，春花似錦毅舆、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案憋活，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至虱黄，卻和暖如春悦即，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工盐欺，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人仅醇。一個(gè)月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓冗美，卻偏偏與公主長得像，于是被迫代替她去往敵國和親析二。傳聞我的和親對象是個(gè)殘疾皇子粉洼，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,092評論 2贊 355

幾代測序知識和原理

測序原理：

一代測序（Sanger測序）：

NGS (next generation sequencing )二代測序，又稱下一代測序：

邊合成變測序（sequence by synthesis, SBS）～合成

數(shù)據(jù)初步分析：

三代測序（TGS）

測序

1.基因組學(xué)（核酸序列分析）

轉(zhuǎn)錄組學(xué)（基因表達(dá)分析）

蛋白質(zhì)組學(xué)

代謝組學(xué)

測序技術(shù)原理及常用數(shù)據(jù)格式簡介

第一代測序技術(shù)

第二代測序技術(shù)

第三代測序技術(shù)

常用數(shù)據(jù)格式

Fastq格式

Fasta格式：

FASTX-Toolkit

GenBank格式

EMBL格式

推薦閱讀更多精彩內(nèi)容