【deeptools相關(guān)】讀取Excel文件,畫樣本相關(guān)性散點(diǎn)圖

Tips:

https://deeptools.readthedocs.io/en/develop/content/tools/plotCorrelation.html
我們比較樣本的重復(fù)性,一般都是用deeptoolsplotCorrelation 畫散點(diǎn)圖祟身。比如下面類似的命令.

### Step1 multiBamSummary
$ multiBamSummary bins 
--bamfiles *.uniq.bam 
--minMappingQuality 30 
-out scores_per_transcript.npz 
--outRawCount scores_per_transcript.tab

### Step2 plotCorrelation
$ deepTools2.0/bin/plotCorrelation \
-in scores_per_transcript.npz \
--corMethod pearson --skipZeros \
--plotTitle "Pearson Correlation of Average Scores Per Transcript" \
--whatToPlot scatterplot \
-o scatterplot_PearsonCorr_bigwigScores.png   \
--outFileCorMatrix PearsonCorr_bigwigScores.tab

得到圖:


image.png

假設(shè)只有tab 文件诈闺,但plotCorrelation 只能識別npz 格式(numpy存儲的格式。類似R里面.RData 一樣,存儲特定數(shù)據(jù)結(jié)構(gòu)),要怎么才可以畫圖?
也就是說tab 格式如何轉(zhuǎn)化成npz 格式呢?

查看npz 里面是什么東西 讀取npz 的方法:菜鳥教程

image.png

類似字典巢寡,有l(wèi)abels 和matrix 兩個鍵。我們將tab整理成這個格式就可以了椰苟。

實(shí)踐:

1. 下載文章數(shù)據(jù) 41556_2019_383_MOESM9_ESM.xlsx 抑月,發(fā)現(xiàn)數(shù)據(jù)都是excel 格式保存的。如下圖:
image.png

需要讀取excel 的sheet 里面的數(shù)據(jù)舆蝴,保存為fig1b_scatterplot.csv谦絮。
R代碼:

########################
rm(list=ls())
options(warn = -1)
options(stringsAsFactors = F)
setwd("C:/Users/16926/Desktop/2020-1/單細(xì)胞/sc-ChIP")

##############
## 1.加載包,讀取xlsx(最新格式)
## 參考:
## 1.不同R包比較 http://www.reibang.com/p/5ed6e4b5d181
## 2.openxlsx::read.xlsx 參數(shù)介紹 :https://blog.csdn.net/zyunnketsu/article/details/78053179
##############
library(openxlsx)
a<-read.xlsx("41556_2019_383_MOESM9_ESM.xlsx",
             sheet=1,startRow = 14)#文件名+sheet的序號,簡單粗暴
head(a)
s1 <- object.size(a)
print(sl, units = "auto", standard = "SI") 

write.csv(a,file = "./fig1/fig1b_scatterplot.csv",row.names = F)

提取到fig1b_scatterplot.csv 內(nèi)容如下:


image.png
2.將fig1b_scatterplot.csv 轉(zhuǎn)換成npz 格式
####################
## time:2020/3/23 10:27
## author: caokai
## email:1692679247@qq.com
## aim : convert csv format to npz format to use deeptools software
####################

####################
## 1.加載模塊
import os
import numpy as np
import pandas as pd
os.chdir("C:/Users/16926/Desktop/2020-1/單細(xì)胞/sc-ChIP/fig1")
os.listdir(".")


####################
## 2.讀取及其保存格式
## 參考:np:https://www.runoob.com/numpy/numpy-io.html
## pd: https://blog.csdn.net/xidianbaby/article/details/88831145
## mian:https://blog.csdn.net/yuzhihuan1224/article/details/99634355?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

dat = pd.read_csv("fig1b_scatterplot.csv")



labels = np.array(dat.columns[3:], dtype="|S22")  # 去除前三列,labels轉(zhuǎn)換成np np.array([bytes(c, encoding='utf8') for c in dat.columns])
matrix = dat.iloc[:,3:].values   # 去除前三列,value轉(zhuǎn)換成np np.array(dat[dat.columns[3:]])
## 計(jì)算log10(FPM)
matrix = np.log10(matrix+1)


## 保存為npz 格式
np.savez(r"fig1.scatterplot.npz",

         labels = labels,
         matrix = matrix)

data_z = np.load("fig1.scatterplot.npz")
print(data_z.files) # 查看各個數(shù)組名稱
print(data_z["labels"]) # 數(shù)組 labels
print(data_z["matrix"]) # 數(shù)組 matrix

所以我們得到了fig1.scatterplot.npz 數(shù)據(jù)洁仗,可以直接畫圖了层皱。

3.deeptools 畫圖
plotCorrelation   -in fig1.scatterplot.npz 
--corMethod pearson 
--skipZeros --plotTitle 'Pearson Correlation' 
--whatToPlot scatterplot 
--removeOutliers 
-o fig1_scatterplot_PearsonCorr.png 
--outFileCorMatrix fig1_scatterplot_PearsonCorr.tab

散點(diǎn)圖如下圖:


2020年3月23日15:20:23

總結(jié)思考:

  • 讀取Excel 的包推薦openxlsx
  • 了解npynpz 差別,及其numpy修改數(shù)據(jù)格式的方式赠潦。
    np.array(dat.columns[3:], dtype="|S22")奶甘,將字符串轉(zhuǎn)換成bite 類型。
  • deeptoools 無法對數(shù)據(jù)進(jìn)行log10 scale(只提供--log1p:自然對數(shù)e
    顏色deeptools --colorMap參數(shù)祭椰,畫散點(diǎn)圖沒有用.

歡迎大家討論~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市疲陕,隨后出現(xiàn)的幾起案子方淤,更是在濱河造成了極大的恐慌,老刑警劉巖蹄殃,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件携茂,死亡現(xiàn)場離奇詭異,居然都是意外死亡诅岩,警方通過查閱死者的電腦和手機(jī)讳苦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吩谦,“玉大人鸳谜,你說我怎么就攤上這事∈酵ⅲ” “怎么了咐扭?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我蝗肪,道長袜爪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任薛闪,我火速辦了婚禮辛馆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘豁延。我一直安慰自己昙篙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布术浪。 她就那樣靜靜地躺著瓢对,像睡著了一般。 火紅的嫁衣襯著肌膚如雪胰苏。 梳的紋絲不亂的頭發(fā)上硕蛹,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天,我揣著相機(jī)與錄音硕并,去河邊找鬼法焰。 笑死,一個胖子當(dāng)著我的面吹牛倔毙,可吹牛的內(nèi)容都是我干的埃仪。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼陕赃,長吁一口氣:“原來是場噩夢啊……” “哼卵蛉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起么库,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤傻丝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后诉儒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體葡缰,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年忱反,在試婚紗的時候發(fā)現(xiàn)自己被綠了泛释。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡温算,死狀恐怖怜校,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情注竿,我是刑警寧澤韭畸,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布宇智,位于F島的核電站,受9級特大地震影響胰丁,放射性物質(zhì)發(fā)生泄漏随橘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一锦庸、第九天 我趴在偏房一處隱蔽的房頂上張望机蔗。 院中可真熱鬧,春花似錦甘萧、人聲如沸萝嘁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽牙言。三九已至,卻和暖如春怪得,著一層夾襖步出監(jiān)牢的瞬間咱枉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工徒恋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蚕断,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓入挣,卻偏偏與公主長得像亿乳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子径筏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容