raw data/PF data/Q30 data/clean data的不同(轉(zhuǎn)載)

測序數(shù)據(jù)拿回來之后叨粘,會給一些數(shù)據(jù)秒梅。那么這些數(shù)據(jù)代表什么呢旗芬?

1. 原始數(shù)據(jù)(Raw data):一次測序產(chǎn)生的全部原始數(shù)據(jù)。理論上捆蜀,它們應(yīng)該是沒有經(jīng)過任何過濾的疮丛,無論好壞。

GB和Gb的區(qū)別

2. PF數(shù)據(jù)(PF data):在測序過程中漱办,Illumina內(nèi)置軟件根據(jù)每個測序片段(read这刷,通常每個片段長100個堿基)前25個堿基的質(zhì)量決定該read是保留還是拋棄。如果沒有達到質(zhì)控標準娩井,則該read的全部堿基都被拋棄暇屋;達到標準、保留下來的數(shù)據(jù)叫做PF data洞辣。 PF代表pass filtering咐刨。

3. Q30數(shù)據(jù)(Q30 data):Illumina內(nèi)置軟件根據(jù)統(tǒng)一設(shè)定的標準來評判堿基識別結(jié)果的可靠性,為每個堿基給予一個質(zhì)量評分(QV)扬霜。PF data里質(zhì)量評分>=30分的數(shù)據(jù)稱為Q30 data定鸟。 Q30的意思是該堿基的可靠性為99.9%。Q30數(shù)據(jù)通常占PF數(shù)據(jù)的80%左右著瓶。視樣本質(zhì)量联予、操作水平、試劑質(zhì)量材原、儀器狀態(tài)的不同沸久,這一比例有很大波動。

Q30和Q20

4. 干凈數(shù)據(jù)(Clean data余蟹。數(shù)據(jù)還有不干凈的卷胯?):某些實驗室根據(jù)其自身的判斷標準,在PF data的基礎(chǔ)上威酒,進一步刪除質(zhì)量不好的reads后得到的數(shù)據(jù)窑睁。常見的刪除動作有:去接頭挺峡、去N含量高的reads、去質(zhì)量評分低的reads担钮、去掉每個read的最后幾個堿基橱赠,等等。

Clean data是國內(nèi)叫法裳朋;PF data是來自Illumina的概念病线,是廣為接受的國際通行標準。

PF算法實質(zhì)上是選取每個測序片段(read)前25個堿基的質(zhì)量來代表整條片段的質(zhì)量鲤嫡,從而決定該片段的去留。Illumina之所以這樣做绑莺,而不是逐個檢查整條片段所有堿基的質(zhì)量暖眼,一方面是為了節(jié)省電腦資源,不致于花費太多時間進行運算纺裁,拖累測序進程诫肠,另一方面也是在大量測序數(shù)據(jù)的統(tǒng)計結(jié)果基礎(chǔ)上選擇的平衡點,只要前25個堿基是正常的欺缘,后75個堿基出問題的概率比較小栋豫。

一次測序?qū)嶒炌瓿桑瑴y序儀上展示的數(shù)據(jù)量和%Q30都是以PF數(shù)據(jù)為基礎(chǔ)的谚殊。只要對數(shù)據(jù)質(zhì)量有足夠信心丧鸯,就不會對PF數(shù)據(jù)再進行加工,可以直接把PF數(shù)據(jù)交給客戶嫩絮,進行下游的生物信息學分析丛肢。

三、為什么要clean data?

如果二代測序?qū)嶒灣晒烁桑瑒tPF data已經(jīng)是質(zhì)量比較好的數(shù)據(jù)蜂怎,沒有必要進一步加工。從基本原理來講置尔,任何形式的加工過濾杠步,毫無例外都會引入額外的偏差(bias),嚴重的時候會導致生物信息學分析結(jié)論失真榜轿。

把PF數(shù)據(jù)加工成“干凈數(shù)據(jù)”幽歼,原因有多種,其中常見的原因之一是使用山寨的試劑(非Illumina原廠正版試劑)構(gòu)建文庫差导,測序質(zhì)量不盡如人意试躏,Q30比例不高。在采用同種技術(shù)设褐、同種平臺的情況下颠蕴,文庫構(gòu)建的質(zhì)量是決定測序質(zhì)量的關(guān)鍵泣刹。只要去掉質(zhì)量差的數(shù)據(jù),就可以提高Q30比例犀被,可是這樣做法目的性太強椅您,難免讓人心里打鼓。

讓我們來具體分析為了獲得clean data所做的4種常見動作是否有必要寡键,及其潛在副作用掀泳。

1、去接頭西轩。

使用正版試劑员舵、按標準流程進行操作,接頭序列是不會被測出來的藕畔,這是因為測序引物的結(jié)合位點位于接頭的3'端马僻,測序測到的第一個堿基就是插入片段的未知堿基,因此不需要去接頭注服。

在以下兩種特殊情況下韭邓,需要去接頭(adaptor),或者去標簽(barcode):

一是自己合成寡核苷酸溶弟、自配文庫構(gòu)建試劑女淑,這類設(shè)計通常把barcode安排在接頭的3'端后面,而測序引物的結(jié)合位點仍然在接頭的3'端辜御,導致測序一開始測到的就是barcode序列鸭你,標簽測完了之后才是插入片段的未知序列。在這種情況下我抠,完成demultiplexing之后苇本,標簽序列完成了使命,就要把標簽序列刪除菜拓。

二是文庫的插入片段太短瓣窄,測序片段長度(通常是100堿基)大于插入片段長度,導致插入片段被測通纳鼎,一直測到下游接頭的部分或者全部序列俺夕。在這種情況下,要刪除下游的接頭序列贱鄙。

插入片段太短劝贸,除了改變打斷條件,增加插入片段長度以外逗宁,有些種類的樣本比如small RNA本身就很短映九。小RNA的長度只有20幾個堿基,測序試劑的包裝是50堿基和100堿基兩種瞎颗,都長于小RNA件甥;另外捌议,如果小RNA樣本數(shù)量少,湊不滿一張FC引有,就要與其他樣本一起測序瓣颅,為了將就同一張FC上的其他樣本,往往就對小RNA進行2x100堿基的測序譬正。在這種情況下宫补,去接頭是必要的。

去接頭和去標簽曾我,對測序數(shù)據(jù)本身不造成影響粉怕。

2、去含N多的測序片段抒巢。

一個測序片段里如果有很多堿基無法識別(用N表示)斋荞,提示測序質(zhì)量不高,或者測序過程中遭遇到問題虐秦,需要嚴肅對待,通過故障排除找到根本原因凤优,針對性地采取必要措施進行改正悦陋。刪除這些片段,只是使數(shù)據(jù)看起來比較漂亮筑辨,治標不治本俺驶。

3、去質(zhì)量評分低的片段棍辕。

PF算法本身去除的就是質(zhì)量評分低的片段暮现。如果要在PF之后再來一次“PF”,那就提示測序質(zhì)量沒有達到正常水準楚昭,實乃不得已而為之栖袋。

4、去末端一定數(shù)目的堿基抚太。

隨著測序讀長的增加塘幅,酶活性下降,熒光強度也在下降尿贫,因此測序數(shù)據(jù)質(zhì)量逐漸降低乃是自然趨勢电媳,片段末端的堿基質(zhì)量低于片段前端的。

即使存在這樣的問題庆亡,只要樣本質(zhì)量匾乓、試劑質(zhì)量、操作技能和儀器性能等有保障又谋,在廠家承諾的片段長度范圍內(nèi)拼缝,%Q30是完全能夠達到指標的娱局,并不需要人為去掉末端堿基。

原文:raw data/PF data/Q30 data/clean data的不同

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末珍促,一起剝皮案震驚了整個濱河市铃辖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌猪叙,老刑警劉巖娇斩,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異穴翩,居然都是意外死亡犬第,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門芒帕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來歉嗓,“玉大人,你說我怎么就攤上這事背蟆〖郑” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵带膀,是天一觀的道長志珍。 經(jīng)常有香客問我译荞,道長唤冈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任靠娱,我火速辦了婚禮嗽元,結(jié)果婚禮上敛纲,老公的妹妹穿的比我還像新娘。我一直安慰自己剂癌,他們只是感情好淤翔,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著珍手,像睡著了一般办铡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上琳要,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天寡具,我揣著相機與錄音,去河邊找鬼稚补。 笑死童叠,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播厦坛,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼五垮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了杜秸?” 一聲冷哼從身側(cè)響起放仗,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎撬碟,沒想到半個月后诞挨,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡呢蛤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年惶傻,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片其障。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡银室,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出励翼,到底是詐尸還是另有隱情蜈敢,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布汽抚,位于F島的核電站扶认,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏殊橙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一狱从、第九天 我趴在偏房一處隱蔽的房頂上張望膨蛮。 院中可真熱鬧,春花似錦季研、人聲如沸敞葛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惹谐。三九已至,卻和暖如春驼卖,著一層夾襖步出監(jiān)牢的瞬間氨肌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工酌畜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留怎囚,地道東北人。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓桥胞,卻偏偏與公主長得像恳守,于是被迫代替她去往敵國和親考婴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容