很多時(shí)候我們遇到的數(shù)據(jù)并不是累計(jì)的分布數(shù)據(jù)突倍,而是連續(xù)的一些數(shù)據(jù)妖滔,并且我們需要基于這些數(shù)據(jù)做一些總結(jié)和推斷俭尖,甚至是預(yù)測氢惋。比如在工作中,我們要根據(jù)成本和收入來預(yù)測下半年的投入和產(chǎn)出稽犁;在生活里焰望,需要看下自己投資的基金、股票金額和回報(bào)的整體關(guān)系已亥,又或者看自己體重增長和攝入熱量的關(guān)系熊赖,這些其實(shí)都是要從數(shù)據(jù)當(dāng)中去找趨勢規(guī)律。
一個(gè)最簡單的發(fā)現(xiàn)數(shù)據(jù)趨勢規(guī)律的工具虑椎,以及這個(gè)工具的使用方法——散點(diǎn)圖和相關(guān)性分析震鹉。
散點(diǎn)圖的制作原則
第一,散點(diǎn)圖反映的是兩個(gè)變量之間的關(guān)系捆姜。因此你要把兩個(gè)變量分別放在 X 軸和 Y 軸上面传趾,不要有第三個(gè)變量放進(jìn)來進(jìn)行混淆。當(dāng)然泥技,散點(diǎn)圖的變種——?dú)馀輬D有更多維度浆兰,但是從趨勢角度來看,還是要把最重要的兩個(gè)變量分別放在 X 軸和 Y 軸。
第二簸呈,為了能夠明確展示數(shù)據(jù)之間的趨勢榕订,我們的 Y 軸必須要從零開始。這點(diǎn)就和很多的柱狀圖不同了蜕便。很多柱狀圖的坐標(biāo)軸為了表示數(shù)據(jù)的清晰劫恒,Y 軸可以從一半(比如說 500)開始。另外玩裙,散點(diǎn)圖坐標(biāo)軸顆粒度要合適兼贸,最終聚成一團(tuán)或者散列太大,都會讓我們無法快速找到趨勢吃溅。
第三溶诞,為了表示趨勢的清晰,我們一般都會添加一條趨勢線來表明背后的規(guī)律决侈。說明一個(gè)趨勢的趨勢線只能有一條螺垢,不能有多條特別是出現(xiàn)趨勢相交的情況±蹈瑁可別小看這個(gè)趨勢線枉圃,這就是畫龍點(diǎn)睛的一筆,背后其實(shí)是你對業(yè)務(wù)庐冯、數(shù)據(jù)孽亲、算法深刻的理解和認(rèn)知。
通過散點(diǎn)圖尋找規(guī)律
有這三個(gè)原則的指導(dǎo)展父,我們畫出來的散點(diǎn)圖一般不會錯(cuò)返劲。但是光有圖肯定不行亿胸,我們?nèi)绾卧趫D中去找到數(shù)據(jù)之間的關(guān)系呢芯侥?
首先是正相關(guān)科盛,這個(gè)你很容易理解医吊,它就是兩個(gè)系數(shù)的變化基本上畫出來以后都在一個(gè)直線分布上,此增彼漲背镇,兩個(gè)變量都一起增加蔓涧,比如我們上下班的距離和時(shí)間谁帕。同樣惶凝,負(fù)相關(guān)是一個(gè)此增彼減斜著向下的趨勢吼虎,這種方式也比較容易判斷。
指數(shù)增長和上節(jié)課的指數(shù)分布有些類似苍鲜,只不過指數(shù)分布計(jì)算的是一個(gè)加起來的累計(jì)分布值鲸睛,而指數(shù)增長指的是兩個(gè)具體數(shù)值的關(guān)系。指數(shù)級別的變化坡贺,一般背后都醞釀著極大的商機(jī)和機(jī)會。
正 U 型趨勢和反 U 型趨勢,這兩個(gè)也是比較常見的趨勢線遍坟。它的樣子其實(shí)就像字母的 U拳亿,或者是倒過來的 U(從零開始從零結(jié)束)。一個(gè)比較著名的反 U 型趨勢就是經(jīng)濟(jì)學(xué)里面的“拉弗曲線”( Laffer curve)愿伴,這條曲線最典型地反映了政府稅收收入和稅率之間的關(guān)系肺魁。當(dāng)稅率開始增加時(shí),稅收一開始也會隨之增加隔节,但是當(dāng)增加到一定程度鹅经,大家就交不起稅了,重稅導(dǎo)致企業(yè)開始倒閉和破產(chǎn)怎诫,這時(shí)候整體稅收反而開始減小瘾晃,到最終稅率為 100% 時(shí),其實(shí)企業(yè)會全部破產(chǎn)幻妓,稅收反而是 0 了蹦误。
數(shù)據(jù)分析的藝術(shù)就在于通過數(shù)據(jù)分析和管理經(jīng)驗(yàn)找到反 U 型最高點(diǎn),如果你能很好把握你所在公司的反 U 型曲線高點(diǎn)肉津,你大概率是公司的管理層了强胰。
散點(diǎn)圖的易錯(cuò)點(diǎn)
過度依賴散點(diǎn)圖會造成你的判斷錯(cuò)誤。最常見的三個(gè)錯(cuò)誤就是趨勢誤判妹沙、得克薩斯神槍手謬誤和幸存者偏差偶洋。
趨勢誤判
趨勢誤判是指在你看到了一個(gè)數(shù)據(jù)之后,因?yàn)閿?shù)據(jù)整體還不夠完整距糖,你錯(cuò)誤判斷了這個(gè)數(shù)據(jù)的未來增長趨勢玄窝。
當(dāng)你在拿到一個(gè)散點(diǎn)圖,要去判斷它是哪種數(shù)據(jù)趨勢的時(shí)候肾筐,一定要看最終的數(shù)字偏差和實(shí)際情況哆料,才能做出準(zhǔn)確判斷。趨勢線這個(gè)畫龍點(diǎn)睛的一筆吗铐,不是那么容易給出的东亦。通過散點(diǎn)圖最終判斷是什么模型是非常不容易,很多時(shí)候需要非常多的數(shù)據(jù)和復(fù)雜的模型唬渗,這也最終導(dǎo)致了人工智能算法的出現(xiàn)典阵,當(dāng)然這是后話了。現(xiàn)在你只要記住镊逝,沒有正確的數(shù)據(jù)驗(yàn)證壮啊,千萬不要輕易下結(jié)論
得克薩斯神槍手謬誤
當(dāng)年在美國西部得克薩斯州發(fā)現(xiàn)一個(gè)神槍手,他經(jīng)常在各地的民居的墻上練習(xí)射擊撑蒜,幾乎他所有的彈孔都集中在十環(huán)左右這個(gè)中心的區(qū)域歹啼。他已經(jīng)成為了神話玄渗,人們一直在尋找他。但是當(dāng)人們真的找到了這個(gè)神槍手后狸眼,發(fā)現(xiàn)他自己打槍其實(shí)一點(diǎn)都不準(zhǔn)藤树,也不敢跟其他人去決斗。那他墻上的這些靶子和子彈點(diǎn)是怎么形成的呢拓萌?后來人們才發(fā)現(xiàn)岁钓,原來他是先朝墻上開很多槍,然后在彈孔最密集的地方畫上了十環(huán)的靶子微王,再把散布在其它地方的彈孔用原來的泥土補(bǔ)起來屡限。這樣看上去,他每個(gè)地方打的靶子都很準(zhǔn)確炕倘,因?yàn)橄扔袕椏拙螅儆邪凶印?/p>
在我們?nèi)粘I町?dāng)中也很容易出現(xiàn)這種情況,當(dāng)你看到一個(gè)數(shù)據(jù)散點(diǎn)報(bào)告的時(shí)候激才,你一定要看清背后所蘊(yùn)含的實(shí)際數(shù)據(jù)是不是涵蓋了所有的數(shù)據(jù)拓型,還是只給你看了最有這種數(shù)據(jù)規(guī)律的數(shù)據(jù)。
前者就像先有靶子來瞄準(zhǔn)再去射擊瘸恼,后者就好比先射擊完最后再畫上靶子劣挫,這樣結(jié)果會完全不同。依據(jù)數(shù)據(jù)決策很重要东帅,但是也不要被數(shù)據(jù)給騙了压固。
幸存者偏差
我們小的時(shí)候,鄰居家的小孩永遠(yuǎn)比我們要更厲害靠闭,其實(shí)孩子都是差不多的帐我,只不過最后我們看到的是鄰居家小孩當(dāng)中的那些優(yōu)勝者。在分析散點(diǎn)圖的時(shí)候看到了規(guī)律愧膀,還要了解最終這個(gè)規(guī)律形成的原因和背后的場景拦键,不要簡單通過一個(gè)圖表就得出你的結(jié)論。
在工作和生活當(dāng)中檩淋,每天都會有各種各樣的事發(fā)生芬为,如果我們只是關(guān)注事情本身,而沒有看到背后的規(guī)律蟀悦,那么我們就會像沒有趨勢線的散點(diǎn)圖一樣媚朦,都是零散的點(diǎn),抓不住背后隱藏的那根線日戈,感覺每天都是忙忙碌碌询张,但其實(shí)自己碌碌無為。畫這根線就是要找到你生命里的規(guī)律浙炼,在數(shù)據(jù)科學(xué)里我們叫做算法份氧,生活當(dāng)中我們叫做哲學(xué)唯袄。
小到我們自己投資和回報(bào),大到整個(gè)宇宙里面星體之間的分布蜗帜,我們都可以通過散點(diǎn)圖來找到背后隱藏的規(guī)律越妈。
要做一個(gè)正確的散點(diǎn)圖,我們需要注意三個(gè)要點(diǎn):
確定兩個(gè)變量坐標(biāo)軸钮糖;
坐標(biāo)軸的起始值和顆粒度要合適;
要找到合適的趨勢線和趨勢模型進(jìn)行描述酌住。
在使用散點(diǎn)圖時(shí)店归,容易犯的錯(cuò)誤:
利用散點(diǎn)圖做深入數(shù)據(jù)分析的時(shí)候不要輕易下結(jié)論(身高和體重在生長期是成正比的,你成年了自然也就不會再是正比了)酪我;
不能由現(xiàn)有結(jié)果給出趨勢判斷(做事情無論成功了還是失敗了消痛,都不要用上天的安排來麻痹自己),還需要了解規(guī)律形成的最終原因和背后的場景都哭;
不要用片面的數(shù)據(jù)來證明你的規(guī)律(不要片面看問題秩伞,別人家的孩子真的不比我們好多少)。
此文章為11月Day23學(xué)習(xí)筆記欺矫,內(nèi)容來源于極客時(shí)間《數(shù)據(jù)分析思維課》纱新,強(qiáng)烈推薦該課