創(chuàng)建大鼠cistarget參考數據庫

運行SCENIC做單細胞的轉錄因子分析時遇到一個問題创南，就是運行SCENIC所需的輸入文件中需要用到cistarget database的參考motif文件乏矾，而這個在SCENIC官網上僅有人、小鼠、果蠅的參考數據庫，而自己的數據是大鼠的基因組，因此需要自己動手去建大鼠的cistarget database霹期。
SCENIC官網中提供了create cistarget database的workflow，但官網中該部分的文檔寫的并不十分詳細拯田，在此特別感謝另外一位做擬南芥的簡友历造，提供了很好的借鑒，附上參考資料：
https://github.com/aertslab/create_cisTarget_databases
http://www.reibang.com/p/59db26de0858
https://github.com/weng-lab/cluster-buster

第一步：安裝各種軟件

創(chuàng)建環(huán)境

conda create -n create_cistarget_databases \
    'python=3.10' \
    'numpy=1.21' \
    'pandas>=1.4.1' \
    'pyarrow>=7.0.0' \
    'numba>=0.55.1' \
    'python-flatbuffers'

conda activate create_cistarget_databases

將create_cisTarget_databases軟件包拷貝到本地

git clone https://github.com/aertslab/create_cisTarget_databases

安裝Cluster-Buster

##安裝預編譯二進制文件
cd "${CONDA_PREFIX}/bin" #進入環(huán)境根目錄下的bin文件夾
wget https://resources.aertslab.org/cistarget/programs/cbust #下載預編譯二進制文件
chmod a+x cbust #使該文件變?yōu)榭蓤?zhí)行文件

##安裝cbust
git clone -b change_f4_output https://github.com/ghuls/cluster-buster/
cd cluster-buster
make cbust
conda activate create_cistarget_databases
cp -a cbust "${CONDA_PREFIX}/bin/cbust"

安裝UCSC工具

cd "${CONDA_PREFIX}/bin"
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bigWigAverageOverBed
chmod a+x liftOver bigWigAverageOverBed
conda activate create_cistarget_databases

第二步：創(chuàng)建Cistarget數據庫

根據create_cistarget_database的官方文檔船庇，需要輸入以下文件

image.png

所需文件

1吭产、FASTA file with regulatory regions: 所有基因的啟動子區(qū)域序列，可以在UCSC中下載https://hgdownload.soe.ucsc.edu/goldenPath/rn7/bigZips/鸭轮。

2臣淤、motifs矩陣文件：in Cluster-Buster format

從cisBP(http://cisbp.ccbr.utoronto.ca/)中下載大鼠基因的motif信息，主要關注PWM文件夾窃爷。

image.png

PWM文件夾由許多motif的txt文件組成邑蒋，點開其中一個motif的txt文件可以看到其中包含了motif的概率矩陣信息。在這個矩陣中按厘，每一行代表一個堿基位置医吊，每一列代表一個堿基類型，數字表示該位置上對應堿基類型的頻次或權重逮京。

image.png

需要注意的是卿堂，PWM文件夾中的motif矩陣文件需要修飾為Cluster-Buster中的motif矩陣格式!

image.png

cd ./pwms_all_motifs

#Step 1: 去掉文件夾中所有txt文件的第一行和第一列的信息
for file in *.txt; do
    awk 'NR>1 { for (i=2; i<=NF; i++) printf $i"\t"; printf "\n" }' "$file" > "${file}_temp"
    mv "${file}_temp" "$file"
done

#Step 2: 過濾掉文件夾中的空白文件
find ./ -type f -empty -delete

#Step 3: 提取文件夾中的文件名作為motif_id，并在相應的txt文件的第一行添加motif_id的信息
for file in *.txt; do
    motif_id=$(basename "$file" .txt)
    sed -i "1s/^/$motif_id\n/" "$file"
done

#Step 4: 在所有文檔的開頭加上“>”符號
sed -i '1s/^/>/' *.txt

#Step 5: 將所有文件的后綴名改為.cb文件
for file in *.txt; do
    mv "$file" "${file%.txt}.cb"
done

得到了以下結果：

image.png

3懒棉、motif list：其實就是把PWM文件夾中所有文件的文件名提取出來形成一個txt文件就行

for file in pwms_all_motifs/*.cb; do
    echo "$(basename "$file" .cb)" >> motif_list.txt
done

運行create_cisTarget_motif_databases.py

cd /home/lwc/scRNA/SCENIC/create_cisTarget_databases
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/upstream2000.fa
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/pwms_all_motifs/
ln -s ~/scRNA/SCENIC/Rattus_cistarget_database/motif_list.txt

python create_cistarget_motif_databases.py \
   -f upstream2000.fa \
   -M pwms_all_motifs/ \
   -m motif_list.txt \
   -o ~/scRNA/SCENIC/Rattus_cistarget_database/ \
   -t 22

運行界面如下

image.png

總結

第一步安裝軟件按照create_cistarget_database的官方文檔來就好了
第二步比較坑的一點是官方文檔中只說了需要Cluster-Buster格式的motif文件草描，但是并沒有詳細說明，另外就是還缺少說明motif list需要的是什么信息策严。
想要創(chuàng)建cistarget database穗慕，最關鍵的是要拿到對應種屬的motif PWM文件，然后將這個motif的矩陣文件進行修飾改為Cluster-Buster的格式享钞。
本文選取的是收錄motif信息最多的cisbp數據庫揍诽，當然還有其他數據庫可以下載這個motif PWM文件诀蓉，但是至于怎么把它們整合起來那是另一回事了栗竖。

最后編輯于：2023.10.13 11:10:20

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末暑脆，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子狐肢，更是在濱河造成了極大的恐慌添吗，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件份名，死亡現場離奇詭異碟联，居然都是意外死亡，警方通過查閱死者的電腦和手機僵腺，發(fā)現死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門鲤孵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人辰如，你說我怎么就攤上這事普监。” “怎么了琉兜？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵凯正，是天一觀的道長。經常有香客問我豌蟋，道長廊散，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任梧疲，我火速辦了婚禮允睹，結果婚禮上，老公的妹妹穿的比我還像新娘幌氮。我一直安慰自己缭受，他們只是感情好，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布浩销。她就那樣靜靜地躺著贯涎，像睡著了一般。火紅的嫁衣襯著肌膚如雪慢洋。梳的紋絲不亂的頭發(fā)上塘雳，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天，我揣著相機與錄音普筹，去河邊找鬼败明。笑死，一個胖子當著我的面吹牛太防，可吹牛的內容都是我干的妻顶。我是一名探鬼主播酸员，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼讳嘱！你這毒婦竟也來了幔嗦？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤沥潭，失蹤者是張志新（化名）和其女友劉穎邀泉，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體钝鸽，經...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡汇恤，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了拔恰。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片因谎。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖颜懊，靈堂內的尸體忽然破棺而出财岔，到底是詐尸還是另有隱情，我是刑警寧澤饭冬，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布使鹅，位于F島的核電站，受9級特大地震影響昌抠，放射性物質發(fā)生泄漏患朱。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一炊苫、第九天我趴在偏房一處隱蔽的房頂上張望裁厅。院中可真熱鬧，春花似錦侨艾、人聲如沸执虹。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案唠梨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽袋励。三九已至，卻和暖如春当叭，著一層夾襖步出監(jiān)牢的瞬間茬故，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工蚁鳖，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留磺芭，地道東北人。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓醉箕，卻偏偏與公主長得像钾腺，于是被迫代替她去往敵國和親徙垫。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

創(chuàng)建大鼠cistarget參考數據庫

第一步：安裝各種軟件

創(chuàng)建環(huán)境

將create_cisTarget_databases軟件包拷貝到本地

安裝Cluster-Buster

安裝UCSC工具

第二步：創(chuàng)建Cistarget數據庫

所需文件

1吭产、FASTA file with regulatory regions: 所有基因的啟動子區(qū)域序列，可以在UCSC中下載https://hgdownload.soe.ucsc.edu/goldenPath/rn7/bigZips/鸭轮。

2臣淤、motifs矩陣文件：in Cluster-Buster format

3懒棉、motif list：其實就是把PWM文件夾中所有文件的文件名提取出來形成一個txt文件就行

運行create_cisTarget_motif_databases.py

總結

推薦閱讀更多精彩內容