本篇文章主要站在你是分析數(shù)據(jù)者的角度來講解,一些測序建庫的原理與操作我只做簡要說明,甚至一筆帶過杭棵。關(guān)于更多詳細(xì)內(nèi)容大家都可以百度了解。主要的篇幅是從公司拿到雙端測序的fq.gz后的故事屡谐。
準(zhǔn)備:一臺服務(wù)器,參考基因組蝌数,基因注釋文件愕掏。
RNA-seq簡介
轉(zhuǎn)錄組測序數(shù)據(jù)產(chǎn)生(簡述)
將表型特異的組織提取RNA,然后送到測序公司顶伞,經(jīng)過質(zhì)檢合格后饵撑,公司為RNA加接頭剑梳,PCR富集,開始在儀器中測序滑潘。數(shù)據(jù)下機(jī)垢乙,發(fā)到客戶手里。
轉(zhuǎn)錄組測序數(shù)據(jù)量與下機(jī)數(shù)據(jù)(簡述)
不同物種的基因數(shù)量與大小都不盡相同语卤,因此具體情況具體分析追逮,可以跟導(dǎo)師商量討論后在做決定。以我所在的實驗室為例粹舵,二倍森林草莓基因組220M钮孵,共計大約34000個基因眼滤,一個樣品測序數(shù)據(jù)量選擇6G(這里的數(shù)據(jù)量指的是原始數(shù)據(jù)中堿基的數(shù)量漾唉,不是文件大小)电爹。另外,測序策略一般都是選擇雙端測序,建庫類型選擇真核普通轉(zhuǎn)錄組文庫瓤摧。若注釋基因組这揣,則選擇真核鏈特異性文庫(此文庫以后的文章會講)。
公司的下機(jī)數(shù)據(jù)都是rawdata形式的,這是最原始數(shù)據(jù),其中包含一些質(zhì)量不好的堿基,并且還有接頭序列痹换。一般會讓公司做去除接頭并且去除質(zhì)量不好的reads畅厢,拿到cleandata數(shù)據(jù)浦楣,做這個操作好像一個樣加10塊(這幾天送樣做三代測序和二代基因組重測序,公司告訴我這個操作不要錢,都是直接給客戶cleandata)弱贼∠夷簦總之枪眉,我實驗室的其他人都是直接告訴公司要cleandata。Rawdata自己也要保存一份。并且公司還有給一個md5.txt之類的文本(文件很重要,檢查文件的完整性)渡处。
測序數(shù)據(jù)上傳到服務(wù)器
我個人一直用Xftp7(https://www.xshellcn.com/xiazai.html)上傳數(shù)據(jù)到服務(wù)器中旧困,填寫信息后就會把軟件發(fā)到郵箱中醇份,下載安裝即可。安裝后叮喳,點擊右上角文件馍悟,新建。
名稱:自己隨便設(shè)置
主機(jī):填寫服務(wù)器IP毅整。
方法:選擇Password蹋凝。
用戶名與密碼:填寫你在服務(wù)器下的賬戶名與密碼即可情龄。
連接成功后迄汛,如下圖。
兩邊都可以互相傳輸专酗,用鼠標(biāo)選擇文件與要傳輸?shù)降奈募A硬霍,右擊傳輸即可。
檢查文件的完整性
首先第一步先檢查文件是不是完整的笼裳。因為可能在下載文件的過程中斷網(wǎng)唯卖,電腦死機(jī)黑屏導(dǎo)致文件沒有下載完全,但是沒有消息提示你躬柬,因此必須檢驗文件是否完整拜轨。
舉例:
這是公司給我的一個樣品雙端測序的文件,并且還有一個md5.txt文本允青。
hsq_md3.txt內(nèi)容如下:
第二列是檢驗的文件名橄碾,第一列是文件對應(yīng)的”數(shù)字密碼”,檢測時颠锉,如果能對應(yīng)上第一列的數(shù)字法牲,則文件完整。檢測時琼掠,文件與md5.txt文本必須在同一目錄下拒垃。
命令:md5sum-c hsq_md5.txt
結(jié)果如下:兩個OK,表示文件完整瓷蛙。
我將s1_1.clean.fq.gz提取前1000行悼瓮,文件名設(shè)置一樣。結(jié)果如下:
可以看到s1_1.clean.fq.gz顯示FAILED艰猬,說明文件不完整横堡。
本節(jié)先介紹到這里,下節(jié)會介紹如何查看測序文件以及fastqc檢測測序文件冠桃。
?---End---