創(chuàng)建大鼠cistarget參考數據庫

運行SCENIC做單細胞的轉錄因子分析時遇到一個問題创南,就是運行SCENIC所需的輸入文件中需要用到cistarget database的參考motif文件乏矾,而這個在SCENIC官網上僅有人、小鼠、果蠅的參考數據庫,而自己的數據是大鼠的基因組,因此需要自己動手去建大鼠的cistarget database霹期。
SCENIC官網中提供了create cistarget database的workflow,但官網中該部分的文檔寫的并不十分詳細拯田,在此特別感謝另外一位做擬南芥的簡友历造,提供了很好的借鑒,附上參考資料:
https://github.com/aertslab/create_cisTarget_databases
http://www.reibang.com/p/59db26de0858
https://github.com/weng-lab/cluster-buster

第一步:安裝各種軟件

創(chuàng)建環(huán)境

conda create -n create_cistarget_databases \
    'python=3.10' \
    'numpy=1.21' \
    'pandas>=1.4.1' \
    'pyarrow>=7.0.0' \
    'numba>=0.55.1' \
    'python-flatbuffers'

conda activate create_cistarget_databases

將create_cisTarget_databases軟件包拷貝到本地

git clone https://github.com/aertslab/create_cisTarget_databases

安裝Cluster-Buster

##安裝預編譯二進制文件
cd "${CONDA_PREFIX}/bin" #進入環(huán)境根目錄下的bin文件夾
wget https://resources.aertslab.org/cistarget/programs/cbust #下載預編譯二進制文件
chmod a+x cbust #使該文件變?yōu)榭蓤?zhí)行文件

##安裝cbust
git clone -b change_f4_output https://github.com/ghuls/cluster-buster/
cd cluster-buster
make cbust
conda activate create_cistarget_databases
cp -a cbust "${CONDA_PREFIX}/bin/cbust"

安裝UCSC工具

cd "${CONDA_PREFIX}/bin"
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bigWigAverageOverBed
chmod a+x liftOver bigWigAverageOverBed
conda activate create_cistarget_databases

第二步:創(chuàng)建Cistarget數據庫

根據create_cistarget_database的官方文檔船庇,需要輸入以下文件


image.png

所需文件

1吭产、FASTA file with regulatory regions: 所有基因的啟動子區(qū)域序列,可以在UCSC中下載https://hgdownload.soe.ucsc.edu/goldenPath/rn7/bigZips/鸭轮。
2臣淤、motifs矩陣文件:in Cluster-Buster format

從cisBP(http://cisbp.ccbr.utoronto.ca/)中下載大鼠基因的motif信息,主要關注PWM文件夾窃爷。

image.png

PWM文件夾由許多motif的txt文件組成邑蒋,點開其中一個motif的txt文件可以看到其中包含了motif的概率矩陣信息。在這個矩陣中按厘,每一行代表一個堿基位置医吊,每一列代表一個堿基類型,數字表示該位置上對應堿基類型的頻次或權重逮京。
image.png

需要注意的是卿堂,PWM文件夾中的motif矩陣文件需要修飾為Cluster-Buster中的motif矩陣格式!

image.png

cd ./pwms_all_motifs

#Step 1: 去掉文件夾中所有txt文件的第一行和第一列的信息
for file in *.txt; do
    awk 'NR>1 { for (i=2; i<=NF; i++) printf $i"\t"; printf "\n" }' "$file" > "${file}_temp"
    mv "${file}_temp" "$file"
done

#Step 2: 過濾掉文件夾中的空白文件
find ./ -type f -empty -delete

#Step 3: 提取文件夾中的文件名作為motif_id,并在相應的txt文件的第一行添加motif_id的信息
for file in *.txt; do
    motif_id=$(basename "$file" .txt)
    sed -i "1s/^/$motif_id\n/" "$file"
done

#Step 4: 在所有文檔的開頭加上“>”符號
sed -i '1s/^/>/' *.txt

#Step 5: 將所有文件的后綴名改為.cb文件
for file in *.txt; do
    mv "$file" "${file%.txt}.cb"
done

得到了以下結果:
image.png
3懒棉、motif list:其實就是把PWM文件夾中所有文件的文件名提取出來形成一個txt文件就行
for file in pwms_all_motifs/*.cb; do
    echo "$(basename "$file" .cb)" >> motif_list.txt
done

運行create_cisTarget_motif_databases.py

cd /home/lwc/scRNA/SCENIC/create_cisTarget_databases
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/upstream2000.fa
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/pwms_all_motifs/
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/motif_list.txt

python create_cistarget_motif_databases.py \
   -f upstream2000.fa \
   -M pwms_all_motifs/ \
   -m motif_list.txt \
   -o ~/scRNA/SCENIC/Rattus_cistarget_database/ \
   -t 22

運行界面如下
image.png

總結

  1. 第一步安裝軟件按照create_cistarget_database的官方文檔來就好了
  2. 第二步比較坑的一點是官方文檔中只說了需要Cluster-Buster格式的motif文件草描,但是并沒有詳細說明,另外就是還缺少說明motif list需要的是什么信息策严。
  3. 想要創(chuàng)建cistarget database穗慕,最關鍵的是要拿到對應種屬的motif PWM文件,然后將這個motif的矩陣文件進行修飾改為Cluster-Buster的格式享钞。
  4. 本文選取的是收錄motif信息最多的cisbp數據庫揍诽,當然還有其他數據庫可以下載這個motif PWM文件诀蓉,但是至于怎么把它們整合起來那是另一回事了栗竖。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末暑脆,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子狐肢,更是在濱河造成了極大的恐慌添吗,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件份名,死亡現場離奇詭異碟联,居然都是意外死亡,警方通過查閱死者的電腦和手機僵腺,發(fā)現死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門鲤孵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辰如,你說我怎么就攤上這事普监。” “怎么了琉兜?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵凯正,是天一觀的道長。 經常有香客問我豌蟋,道長廊散,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任梧疲,我火速辦了婚禮允睹,結果婚禮上,老公的妹妹穿的比我還像新娘幌氮。我一直安慰自己缭受,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布浩销。 她就那樣靜靜地躺著贯涎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪慢洋。 梳的紋絲不亂的頭發(fā)上塘雳,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音普筹,去河邊找鬼败明。 笑死,一個胖子當著我的面吹牛太防,可吹牛的內容都是我干的妻顶。 我是一名探鬼主播酸员,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼讳嘱!你這毒婦竟也來了幔嗦?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤沥潭,失蹤者是張志新(化名)和其女友劉穎邀泉,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體钝鸽,經...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡汇恤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了拔恰。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片因谎。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖颜懊,靈堂內的尸體忽然破棺而出财岔,到底是詐尸還是另有隱情,我是刑警寧澤饭冬,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布使鹅,位于F島的核電站,受9級特大地震影響昌抠,放射性物質發(fā)生泄漏患朱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一炊苫、第九天 我趴在偏房一處隱蔽的房頂上張望裁厅。 院中可真熱鬧,春花似錦侨艾、人聲如沸执虹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袋励。三九已至,卻和暖如春当叭,著一層夾襖步出監(jiān)牢的瞬間茬故,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工蚁鳖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留磺芭,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓醉箕,卻偏偏與公主長得像钾腺,于是被迫代替她去往敵國和親徙垫。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內容