轉錄組分析——一、工作目錄搭建及SRA文件下載

一扇雕、準備工作-目錄管理

mkdir rna
cd rna
mkdir biosoft database pipline project project_backup

一句命令同時創(chuàng)建多個同級別文件夾拓售,規(guī)律存放,方便溯源
幾個文件的作用分別為“軟件安裝镶奉,數(shù)據庫存放础淤,流程搭建目錄,項目分析哨苛,數(shù)據備份”

二鸽凶、數(shù)據下載

流程:tsv文件——獲取sra.url——ascp命令下載sra文件

1、從ENA數(shù)據庫獲取tsv文件

從文獻到獲取tsv文件的思路:
文獻中的GSE編號(materials and methods)——GEO數(shù)據庫獲得該數(shù)據集的BioProject編號(PRJNA229998)——到ENA數(shù)據庫下載tsv文件(其內有aspera下載鏈接)
(tips:WiFi打開ENA數(shù)據庫速度慢建峭,建議手機熱點)
勾選所需信息列


image.png

tsv文件可被Excel打開玻侥,其中sra_aspera為下載URL,sra_md5為sra文件的md5值
而后用Xftp將tsv文件導入到Linux服務器亿蒸,直接放到項目工作目錄凑兰,或者軟鏈接至工作目錄,如下:

# 或者不直接放到工作目錄边锁,放到其他目錄姑食,軟鏈接到工作目錄
ln -s file.tsv ./

2、獲取sra.url(sra文件的下載鏈接)

# 查找sra_aspera茅坛,即sra.url在哪一列
head -n 1 file.tsv | tr '\t' '\n' | less -NS
# 發(fā)現(xiàn)URL在第14列音半,切出第14列
less -S file.tsv | cut -f 14
# 剔除第一行信息,并將結果重定向至sra.url文件——14列雖然已經切出贡蓖,但14列的表頭占據了第一行
less -S file.tsv | cut -f 25 | awk 'NR>1{print}'>sra.url
# 附——簡化:三四行代碼可以用awk簡化曹鸠,直接取出第14列,且排除第1行摩梧,重定向至sra.url文件
cat file.tsv | awk 'NR>1{print $14}'>sra.url
# 最后查看一下提取出來的URL物延,-A可以查看所有字符
cat -A file.tsv
# 發(fā)現(xiàn)每行的行尾有一個$符號

3兴泥、sra數(shù)據下載

# 下載單個文件(注:'\'字符為轉義字符臣缀,表示命令還沒有輸完)
# 最后一行下載鏈接之前有“era-fasp@”,注意!S榔薄!
ascp -k 1 -QT -l 300m -P33001 \ 
-i   '秘鑰文件的絕對路徑'  \
era-fasp@'sra的下載鏈接' ./

# 任務投遞
# Ctrl+z           下載時使任務暫停并轉入后臺
bg     # 后臺再次運行
jobs # 查看當前運行的任務
top  
ps -fx
fg  #轉前臺 不加參數(shù)時痴鳄,把剛剛轉后臺的任務轉前臺柏卤;如果已經退出服務器,需要把后臺轉前臺抖拴,需要在fg后面加任務號燎字,jobs -l 命令可以顯示任務號(中括號里面的數(shù)字)

# 批量下載
# 得到sra.url文件,如果行尾存在特殊字符阿宅,運行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
# 行尾有$符號候衍,批量下載之前要去掉!H鞣拧r嚷埂!
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $13}' >sra.url
cat filereport_read_run_PRJNA229998_tsv.txt |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n'  >fastq.url

# 批量下載命令   用shell腳本+while循環(huán)批量下載MQ臁!A熳贰K拧!H抟ぁW厮铩!;芈邸I⒑薄!?亍E肥!T崃恰N笊酢!F拙弧窑邦!
cat  sra.url |while read id
do
    ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ./ &
done

釋義:
ascp命令(aspera軟件中的命令)
-k 表示斷點續(xù)傳,通常設置為1
-Q 啟用QQ傳輸策略壕探,使用-l和-m可以分別設定最高和最小傳輸速度
-T 取消加密傳輸冈钦,若不添加此參數(shù),可能無法下載
-P 表示默認端口
-i 輸入秘鑰李请,此參數(shù)后接秘鑰文件
公共賬戶名(era-fasp@)瞧筛,后面是下載URL厉熟,最后是下載文件存放的文件夾

tips:秘鑰文件的路徑可以用find命令查找

find '待搜索文件夾' -name '*.openssh'
# ‘待搜索文件夾’使用絕對路徑填寫,返回的路徑也會是絕對路徑较幌,就可以直接拷貝到秘鑰文件位置
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末揍瑟,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子乍炉,更是在濱河造成了極大的恐慌绢片,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件岛琼,死亡現(xiàn)場離奇詭異底循,居然都是意外死亡,警方通過查閱死者的電腦和手機衷恭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進店門此叠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人随珠,你說我怎么就攤上這事♀恚” “怎么了窗看?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長倦炒。 經常有香客問我显沈,道長,這世上最難降的妖魔是什么逢唤? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任拉讯,我火速辦了婚禮,結果婚禮上鳖藕,老公的妹妹穿的比我還像新娘魔慷。我一直安慰自己,他們只是感情好著恩,可當我...
    茶點故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布院尔。 她就那樣靜靜地躺著,像睡著了一般喉誊。 火紅的嫁衣襯著肌膚如雪邀摆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天伍茄,我揣著相機與錄音栋盹,去河邊找鬼。 笑死敷矫,一個胖子當著我的面吹牛例获,可吹牛的內容都是我干的音念。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼躏敢,長吁一口氣:“原來是場噩夢啊……” “哼闷愤!你這毒婦竟也來了?” 一聲冷哼從身側響起件余,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤讥脐,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后啼器,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體旬渠,經...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年端壳,在試婚紗的時候發(fā)現(xiàn)自己被綠了告丢。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,146評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡损谦,死狀恐怖岖免,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情照捡,我是刑警寧澤颅湘,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站栗精,受9級特大地震影響闯参,放射性物質發(fā)生泄漏。R本人自食惡果不足惜悲立,卻給世界環(huán)境...
    茶點故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一鹿寨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧薪夕,春花似錦脚草、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嚼贡,卻和暖如春熏纯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背粤策。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工樟澜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓秩贰,卻偏偏與公主長得像霹俺,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子毒费,可洞房花燭夜當晚...
    茶點故事閱讀 45,107評論 2 356

推薦閱讀更多精彩內容