參考學(xué)習(xí)資料:https://mp.weixin.qq.com/s/n-C2P322ZWQyZ6-3EEKbxA
經(jīng)车醒粒看到群里會(huì)有一些題目候衍,然后都不知道怎么去做笼蛛,先來學(xué)習(xí)一下前人經(jīng)驗(yàn)
關(guān)于如何入門編程,你可能需要
以下是一些題目及答案示例
對FASTQ的操作:
- 5,3段截掉幾個(gè)堿基
- 序列長度分布統(tǒng)計(jì)
- FASTQ 轉(zhuǎn)換成 FASTA
- 統(tǒng)計(jì)堿基個(gè)數(shù)及GC%
對FASTA的操作:
- 取互補(bǔ)序列
- 取反向序列
- DNA to RNA
- 大小寫字母形式輸出
- 每行指定長度輸出序列
- 按照序列長度/名字排序
- 提取指定ID的序列
- 隨機(jī)抽取序列
高級(jí)難度:
- 根據(jù)坐標(biāo)取序列
- 多文件合并
- 根據(jù)ID列表取序列
- GTF文件探索
- 簡并堿基的引物序列還原成多條序列
- snp進(jìn)行注釋并格式化輸出
01 下載安裝bowtie2(內(nèi)含測試數(shù)據(jù))
先下載安裝安裝軟件的工具 Bioconda (http://bioconda.github.io)
參考:https://mp.weixin.qq.com/s/FBsY8hRjTS6ih2RvY47I6Q
按照這個(gè)工具先刪除電腦原來的版本妖异,重新安裝新的版本
$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh
Miniconda3-latest-M 100%[===================>] 49.36M 381KB/s in 2m 10s
$ mkdir biosoft
$ mv Miniconda3-latest-MacOSX-x86_64.sh biosoft/
$ cd biosoft/
$ ls
Miniconda3-latest-MacOSX-x86_64.sh
$ bash Miniconda3-latest-MacOSX-x86_64.sh
Welcome to Miniconda3 4.7.12
#省略安裝過程惋戏,一路enter,yes
optional arguments:
-h, --help Show this help message and exit.
-V, --version Show the conda version number and exit.
conda commands available from other packages:
env
#安裝完成
$ conda list
#配置鏡像:
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
$ conda config --set show_channel_urls yes
$ conda config --add channels conda-forge
$ conda config --add channels r
$ conda config --add channels bioconda
#查看鏡像
$ conda config --get channels
$ cat ~/.condarc
#刪除鏡像
$ conda config --remove channels
#新建文件目錄安裝軟件
$ conda create -n test
conda activate test
$ mkdir bowtie && cd bowtie
$ conda install -y bowtie2
#同樣是一路yes,然后如下結(jié)果顯示正確安裝
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
(test) Cheng-MacBook-Pro:bowtie chelsea$
小知識(shí)點(diǎn):
軟件更新 : conda update 軟件名
若不確定軟件名稱他膳,可以先使用搜索: conda search fastqc
安裝特定版本軟件: ex. conda install bwa=0.7.12
軟件卸載: conda remove 軟件名
conda 卸載:
A :首先 rm -rf ~/miniconda3
B: 環(huán)境變量中去掉conda, vi ~/bash_profile 刪除conda路徑响逢,退出保存
C: 刪除隱藏的.condarc 、.conda以及.continuum文件
02 人類基因組的外顯子區(qū)域的長度
題目:下載人類外顯子的坐標(biāo)文件棕孙,編寫代碼統(tǒng)計(jì)外顯子區(qū)域的長度舔亭。
測試數(shù)據(jù):
Bioconductor的TxDb.Hsapiens.UCSC.hg19.knownGene
包
NCBI數(shù)據(jù)庫:ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/
原本是想找到一個(gè)批量下載的工具蟀俊,搜索到這篇推送讓下載更方便
它首推了一個(gè)叫uGet的插件钦铺,在火狐瀏覽器里面支持使用的,下載安裝后肢预,發(fā)現(xiàn)有點(diǎn)問題:
提示不能使用矛洞,需要安裝新的支持工具
然后去GitHub上查找了相關(guān)信息沼本,發(fā)現(xiàn)這個(gè)插件也是支持Chrome的,然后嘗試了一下發(fā)現(xiàn)可以用
直接右鍵點(diǎn)擊需要下載的文件就可以看到多了一個(gè)通過這個(gè)插件下載的選項(xiàng)了锭沟。
將下載好的文件放在一個(gè)目錄下抽兆,新建一個(gè)R session
R實(shí)現(xiàn)代碼示例:拷貝了曾老師教程里面的代碼后運(yùn)行出了如下報(bào)錯(cuò),然后我以為是沒有安裝什么包冈钦,把實(shí)例數(shù)據(jù)的包TxDb.Hsapiens.UCSC.hg19.knownGene
安裝了一遍郊丛,加載后仍然出現(xiàn)報(bào)錯(cuò)
> a=read.table(choose.files("ccds/CCDS_nucleotide.current.fna.gz"),sep = ' ',stringsAsFactors = F,header = T) # 選擇你下的CCDs文件
Error in choose.files("ccds/CCDS_nucleotide.current.fna.gz") :
could not find function "choose.files"
之后去查這個(gè)函數(shù)到底在哪里李请,發(fā)現(xiàn)是在基礎(chǔ)包里面,既然是基礎(chǔ)包厉熟,我應(yīng)該都安裝了导盅,為啥加載錯(cuò)誤呢,問號(hào)一下發(fā)現(xiàn)揍瑟,又鬧了個(gè)笑話
估計(jì)這樣的函數(shù)還有很多白翻,但是有沒有對應(yīng)的mac版本可用的函數(shù)呢?我想這里應(yīng)該有個(gè)列表绢片,但是我覺得這種不同系統(tǒng)版本問題導(dǎo)致的函數(shù)不同應(yīng)該挺多的滤馍,希望開發(fā)者找到一個(gè)合理的方法去解決,如果能統(tǒng)一就好了底循。