【deeptools相關(guān)】讀取Excel文件,畫樣本相關(guān)性散點(diǎn)圖

Tips:

https://deeptools.readthedocs.io/en/develop/content/tools/plotCorrelation.html
我們比較樣本的重復(fù)性，一般都是用deeptools 中 plotCorrelation 畫散點(diǎn)圖祟身。比如下面類似的命令.

### Step1 multiBamSummary
$ multiBamSummary bins 
--bamfiles *.uniq.bam 
--minMappingQuality 30 
-out scores_per_transcript.npz 
--outRawCount scores_per_transcript.tab

### Step2 plotCorrelation
$ deepTools2.0/bin/plotCorrelation \
-in scores_per_transcript.npz \
--corMethod pearson --skipZeros \
--plotTitle "Pearson Correlation of Average Scores Per Transcript" \
--whatToPlot scatterplot \
-o scatterplot_PearsonCorr_bigwigScores.png   \
--outFileCorMatrix PearsonCorr_bigwigScores.tab

得到圖：

image.png

假設(shè)只有tab 文件诈闺，但plotCorrelation 只能識別npz 格式（numpy存儲的格式。類似R里面.RData 一樣，存儲特定數(shù)據(jù)結(jié)構(gòu)）,要怎么才可以畫圖？
也就是說tab 格式如何轉(zhuǎn)化成npz 格式呢？

查看npz 里面是什么東西讀取npz 的方法：菜鳥教程

image.png

類似字典巢寡，有l(wèi)abels 和matrix 兩個鍵。我們將tab整理成這個格式就可以了椰苟。

實(shí)踐：

1. 下載文章數(shù)據(jù) 41556_2019_383_MOESM9_ESM.xlsx 抑月，發(fā)現(xiàn)數(shù)據(jù)都是excel 格式保存的。如下圖：

image.png

需要讀取excel 的sheet 里面的數(shù)據(jù)舆蝴，保存為fig1b_scatterplot.csv谦絮。
R代碼：

########################
rm(list=ls())
options(warn = -1)
options(stringsAsFactors = F)
setwd("C:/Users/16926/Desktop/2020-1/單細(xì)胞/sc-ChIP")

##############
## 1.加載包,讀取xlsx(最新格式)
## 參考：
## 1.不同R包比較 http://www.reibang.com/p/5ed6e4b5d181
## 2.openxlsx::read.xlsx 參數(shù)介紹 ：https://blog.csdn.net/zyunnketsu/article/details/78053179
##############
library(openxlsx)
a<-read.xlsx("41556_2019_383_MOESM9_ESM.xlsx",
             sheet=1,startRow = 14)#文件名+sheet的序號，簡單粗暴
head(a)
s1 <- object.size(a)
print(sl, units = "auto", standard = "SI") 

write.csv(a,file = "./fig1/fig1b_scatterplot.csv",row.names = F)

提取到fig1b_scatterplot.csv 內(nèi)容如下：

image.png

2.將fig1b_scatterplot.csv 轉(zhuǎn)換成npz 格式

####################
## time：2020/3/23 10:27
## author: caokai
## email：1692679247@qq.com
## aim ： convert csv format to npz format to use deeptools software
####################

####################
## 1.加載模塊
import os
import numpy as np
import pandas as pd
os.chdir("C:/Users/16926/Desktop/2020-1/單細(xì)胞/sc-ChIP/fig1")
os.listdir(".")


####################
## 2.讀取及其保存格式
## 參考：np：https://www.runoob.com/numpy/numpy-io.html
## pd: https://blog.csdn.net/xidianbaby/article/details/88831145
## mian：https://blog.csdn.net/yuzhihuan1224/article/details/99634355?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

dat = pd.read_csv("fig1b_scatterplot.csv")



labels = np.array(dat.columns[3:], dtype="|S22")  # 去除前三列,labels轉(zhuǎn)換成np np.array([bytes(c, encoding='utf8') for c in dat.columns])
matrix = dat.iloc[:,3:].values   # 去除前三列,value轉(zhuǎn)換成np np.array(dat[dat.columns[3:]])
## 計(jì)算log10(FPM)
matrix = np.log10(matrix+1)


## 保存為npz 格式
np.savez(r"fig1.scatterplot.npz",

         labels = labels,
         matrix = matrix)

data_z = np.load("fig1.scatterplot.npz")
print(data_z.files) # 查看各個數(shù)組名稱
print(data_z["labels"]) # 數(shù)組 labels
print(data_z["matrix"]) # 數(shù)組 matrix

所以我們得到了fig1.scatterplot.npz 數(shù)據(jù)洁仗，可以直接畫圖了层皱。

3.deeptools 畫圖

plotCorrelation   -in fig1.scatterplot.npz 
--corMethod pearson 
--skipZeros --plotTitle 'Pearson Correlation' 
--whatToPlot scatterplot 
--removeOutliers 
-o fig1_scatterplot_PearsonCorr.png 
--outFileCorMatrix fig1_scatterplot_PearsonCorr.tab

散點(diǎn)圖如下圖：

2020年3月23日15:20:23

總結(jié)思考：

讀取Excel 的包推薦openxlsx
了解npy 和npz 差別，及其numpy修改數(shù)據(jù)格式的方式赠潦。
np.array(dat.columns[3:], dtype="|S22")奶甘，將字符串轉(zhuǎn)換成bite 類型。
deeptoools 無法對數(shù)據(jù)進(jìn)行log10 scale（只提供--log1p：自然對數(shù)e）
顏色deeptools --colorMap參數(shù)祭椰，畫散點(diǎn)圖沒有用.

歡迎大家討論~

最后編輯于：2020.04.06 17:33:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市疲陕，隨后出現(xiàn)的幾起案子方淤，更是在濱河造成了極大的恐慌，老刑警劉巖蹄殃，帶你破解...
沈念sama閱讀 221,820評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件携茂，死亡現(xiàn)場離奇詭異，居然都是意外死亡诅岩，警方通過查閱死者的電腦和手機(jī)讳苦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來吩谦，“玉大人鸳谜，你說我怎么就攤上這事∈酵ⅲ” “怎么了咐扭？”我有些...
開封第一講書人閱讀 168,324評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我蝗肪，道長袜爪，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,714評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任薛闪，我火速辦了婚禮辛馆，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘豁延。我一直安慰自己昙篙，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布术浪。她就那樣靜靜地躺著瓢对，像睡著了一般。火紅的嫁衣襯著肌膚如雪胰苏。梳的紋絲不亂的頭發(fā)上硕蛹，一...
開封第一講書人閱讀 52,328評論 1贊 310
城市分裂傳說
那天，我揣著相機(jī)與錄音硕并，去河邊找鬼法焰。笑死，一個胖子當(dāng)著我的面吹牛倔毙，可吹牛的內(nèi)容都是我干的埃仪。我是一名探鬼主播，決...
沈念sama閱讀 40,897評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼陕赃，長吁一口氣：“原來是場噩夢啊……” “哼卵蛉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起么库，我...
開封第一講書人閱讀 39,804評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤傻丝，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后诉儒，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體葡缰，經(jīng)...
沈念sama閱讀 46,345評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年忱反，在試婚紗的時候發(fā)現(xiàn)自己被綠了泛释。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,561評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡温算，死狀恐怖怜校，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情注竿，我是刑警寧澤韭畸，帶...
沈念sama閱讀 36,238評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布宇智，位于F島的核電站，受9級特大地震影響胰丁，放射性物質(zhì)發(fā)生泄漏随橘。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一锦庸、第九天我趴在偏房一處隱蔽的房頂上張望机蔗。院中可真熱鬧，春花似錦甘萧、人聲如沸萝嘁。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,417評論 0贊 24
一樁弒父案扬卷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽牙言。三九已至，卻和暖如春怪得，著一層夾襖步出監(jiān)牢的瞬間咱枉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,528評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工徒恋，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蚕断，地道東北人。一個月前我還...
沈念sama閱讀 48,983評論 3贊 376
代替公主和親
正文我出身青樓入挣，卻偏偏與公主長得像亿乳，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子径筏，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評論 2贊 359

【deeptools相關(guān)】讀取Excel文件,畫樣本相關(guān)性散點(diǎn)圖

Tips:

實(shí)踐：

1. 下載文章數(shù)據(jù) 41556_2019_383_MOESM9_ESM.xlsx 抑月，發(fā)現(xiàn)數(shù)據(jù)都是excel 格式保存的。如下圖：

2.將fig1b_scatterplot.csv 轉(zhuǎn)換成npz 格式

3.deeptools 畫圖

總結(jié)思考：

推薦閱讀更多精彩內(nèi)容