上次帶大家見(jiàn)識(shí)了幾個(gè)制表時(shí)最常見(jiàn)的誤區(qū),提出了四條規(guī)則
要想通過(guò)一次討論就把所有誤區(qū)都說(shuō)清楚也不現(xiàn)實(shí)八千,有些坑還是要自己踩自己跌自己爬吗讶,挫敗感是學(xué)習(xí)成長(zhǎng)道路上的二師兄——有些討厭,卻少不了他
假如你面對(duì)這些坑恋捆,騰挪輾轉(zhuǎn)收放自如照皆,那恭喜你,離玩轉(zhuǎn)Power BI又近了一步
今天想談?wù)勔痪S表和二維表沸停。這兩樣如果搞不清膜毁,數(shù)據(jù)清洗時(shí)仍然會(huì)陷入事倍功半的泥潭
什么是二維表?
看下圖,確定一個(gè)數(shù)值瘟滨,必須通過(guò)行列兩個(gè)條件去定位候醒,這是二維表最顯著的特征
那什么是一維表呢?
像下面左圖這種僅需通過(guò)單行就能確定數(shù)值的杂瘸,被稱(chēng)為一維表倒淫。為了方便瀏覽打印美觀,很多人會(huì)把重復(fù)姓名合并單元格败玉,如下面右圖(合并單元格只是格式美觀敌土,對(duì)數(shù)據(jù)清洗反而是一大障礙,會(huì)耗費(fèi)額外時(shí)間精力)
為什么表格會(huì)有一运翼、二維之分呢
大家還記不記得小時(shí)候最早接觸到表格是什么樣返干?對(duì),就是學(xué)校的課程表血淌。用二維表樣式來(lái)制作課程矩欠,是再合理不過(guò)了。這張伴隨學(xué)生時(shí)代的課程表六剥,給人留下的印象太深晚顷,即便到了工作崗位,表格的制作和打印疗疟,也大都是二維表樣式
那一維表是怎么來(lái)的该默,為什么會(huì)出現(xiàn)這樣一種有大量重復(fù),反人性的表格樣式策彤?
最早接觸一維表的栓袖,是那些數(shù)據(jù)庫(kù)從業(yè)者,因?yàn)橐痪S表大都是系統(tǒng)自動(dòng)生成的店诗。但凡從系統(tǒng)里導(dǎo)出來(lái)的表裹刮,不管是XLS還是CSV,都是一維表樣式
換句話說(shuō)庞瘸,一維表是符合數(shù)據(jù)庫(kù)設(shè)計(jì)規(guī)范的——數(shù)據(jù)庫(kù)設(shè)計(jì)規(guī)范是一套參考體系捧弃,在技術(shù)世界里不分國(guó)界地沿用了超過(guò)三十年
你只要知道,需要行和列來(lái)定位數(shù)值的擦囊,就是二維表违霞;僅靠單行就能鎖定全部信息的,就是一維表
當(dāng)然瞬场,一維表买鸽、二維表可以相互轉(zhuǎn)換。一維轉(zhuǎn)二維用透視表贯被,反之用逆透視
我們把一維表稱(chēng)為源數(shù)據(jù)眼五,特點(diǎn)是數(shù)據(jù)豐富詳實(shí)妆艘,適合做流水賬,方便存儲(chǔ)看幼,有利于做統(tǒng)計(jì)分析批旺;二維表稱(chēng)為展示數(shù)據(jù),特點(diǎn)是明確直觀诵姜,適合打印朱沃、匯報(bào)
依然用之前的示例(全國(guó)影城數(shù)據(jù))來(lái)演示
這是系統(tǒng)導(dǎo)出的一維表,全國(guó)上萬(wàn)家影城茅诱,2019年上半年各月的人次明細(xì),總計(jì)有六萬(wàn)多行搬卒,地理維度有省市區(qū)三層
一維表顯然不適合人類(lèi)閱讀瑟俭,想了解匯總信息,只能通過(guò)透視功能轉(zhuǎn)換為二維表契邀。一維表信息越詳實(shí)摆寄,二維表可展示的方式就越靈活
回到數(shù)據(jù)清洗這個(gè)環(huán)節(jié)上來(lái)
實(shí)際工作中,我們拿到的數(shù)據(jù)大多是手工制作的二維表——注意坯门,是手工制作微饥,而不是透視過(guò)來(lái)的二維表,兩者最大的區(qū)別就在于古戴,手工二維表欠橘,存在大量“臟”數(shù)據(jù),最典型的就是前文提過(guò)的“制表坑”
一個(gè)最顯著的特點(diǎn)现恼,就是存在大量合并單元格肃续。二維轉(zhuǎn)一維過(guò)程中,合并單元格是惡魔
但光你自己明白合并單元格的利弊并沒(méi)什么L用叉袍,要知道始锚,做數(shù)據(jù)分析時(shí),數(shù)據(jù)的來(lái)源千差萬(wàn)別喳逛,如果都是系統(tǒng)導(dǎo)出的倒還好瞧捌,清洗起來(lái)沒(méi)什么工作量,就怕是那種各部門(mén)提交過(guò)來(lái)的手工電子表润文,他們只圖自己工作方便姐呐,制表隨意性造成了大量不確定因素,使你的清洗工作量成倍增加
關(guān)于數(shù)據(jù)清洗的經(jīng)驗(yàn)與技巧转唉,可以單獨(dú)寫(xiě)本書(shū)皮钠,況且外面也已出版了很多Power Query的書(shū)籍,網(wǎng)上也有很多PQ方面的收費(fèi)課程赠法,學(xué)習(xí)門(mén)檻幾乎可以忽略
這里就舉個(gè)小示例麦轰,演示一下行列都有合并單元格的情況下乔夯,如何二維轉(zhuǎn)一維
鏈接:https://pan.baidu.com/s/1p7OfC3-BkqpYw74pbzj0YA 提取碼:g3j2
1、直接從EXCEL里導(dǎo)入PQ界面
PQ自動(dòng)打開(kāi)后款侵,數(shù)據(jù)已導(dǎo)入末荐,你會(huì)發(fā)現(xiàn),之前合并單元格的地方新锈,已被null占據(jù)
2甲脏、第一次“向下填充”
選擇前三列,“向下填充”
3妹笆、第一次轉(zhuǎn)置
通過(guò)“轉(zhuǎn)置”功能块请,把月份人次場(chǎng)次,行轉(zhuǎn)列
4拳缠、第二次“向下填充”
選中第一列月份墩新,依然“向下填充”,把null覆蓋掉
5窟坐、列合并
將前兩列暫時(shí)合并海渊,方便后續(xù)處理(你也可以試著不合并,看后面操作能不能繼續(xù)下去哲鸳。如果不能臣疑,究竟卡在什么地方,為什么出卡住徙菠,再回過(guò)來(lái)想一下讯沈,這步合并的緣由自然就水落石出)
6、第二次轉(zhuǎn)置
行列恢復(fù)如初
7婿奔、首行提升為標(biāo)題芙盘,逆透視
將第一行提升為標(biāo)題。選取前四列脸秽,點(diǎn)擊“逆透視其他列”
8儒老、拆分列
將之前的合并列拆分,還原成兩列
至此记餐,二維表轉(zhuǎn)一維表過(guò)程結(jié)束(注意修改列名)
接下來(lái)就可以建度量值拉圖表搭建可視化頁(yè)面了