散點(diǎn)圖和相關(guān)性分析

很多時(shí)候我們遇到的數(shù)據(jù)并不是累計(jì)的分布數(shù)據(jù)突倍,而是連續(xù)的一些數(shù)據(jù)妖滔,并且我們需要基于這些數(shù)據(jù)做一些總結(jié)和推斷俭尖,甚至是預(yù)測氢惋。比如在工作中,我們要根據(jù)成本和收入來預(yù)測下半年的投入和產(chǎn)出稽犁;在生活里焰望,需要看下自己投資的基金、股票金額和回報(bào)的整體關(guān)系已亥,又或者看自己體重增長和攝入熱量的關(guān)系熊赖,這些其實(shí)都是要從數(shù)據(jù)當(dāng)中去找趨勢規(guī)律。

一個(gè)最簡單的發(fā)現(xiàn)數(shù)據(jù)趨勢規(guī)律的工具虑椎,以及這個(gè)工具的使用方法——散點(diǎn)圖和相關(guān)性分析震鹉。

散點(diǎn)圖的制作原則

第一,散點(diǎn)圖反映的是兩個(gè)變量之間的關(guān)系捆姜。因此你要把兩個(gè)變量分別放在 X 軸和 Y 軸上面传趾,不要有第三個(gè)變量放進(jìn)來進(jìn)行混淆。當(dāng)然泥技,散點(diǎn)圖的變種——?dú)馀輬D有更多維度浆兰,但是從趨勢角度來看,還是要把最重要的兩個(gè)變量分別放在 X 軸和 Y 軸。

第二簸呈,為了能夠明確展示數(shù)據(jù)之間的趨勢榕订,我們的 Y 軸必須要從零開始。這點(diǎn)就和很多的柱狀圖不同了蜕便。很多柱狀圖的坐標(biāo)軸為了表示數(shù)據(jù)的清晰劫恒,Y 軸可以從一半(比如說 500)開始。另外玩裙,散點(diǎn)圖坐標(biāo)軸顆粒度要合適兼贸,最終聚成一團(tuán)或者散列太大,都會讓我們無法快速找到趨勢吃溅。

第三溶诞,為了表示趨勢的清晰,我們一般都會添加一條趨勢線來表明背后的規(guī)律决侈。說明一個(gè)趨勢的趨勢線只能有一條螺垢,不能有多條特別是出現(xiàn)趨勢相交的情況±蹈瑁可別小看這個(gè)趨勢線枉圃,這就是畫龍點(diǎn)睛的一筆,背后其實(shí)是你對業(yè)務(wù)庐冯、數(shù)據(jù)孽亲、算法深刻的理解和認(rèn)知。

通過散點(diǎn)圖尋找規(guī)律

有這三個(gè)原則的指導(dǎo)展父,我們畫出來的散點(diǎn)圖一般不會錯(cuò)返劲。但是光有圖肯定不行亿胸,我們?nèi)绾卧趫D中去找到數(shù)據(jù)之間的關(guān)系呢芯侥?

首先是正相關(guān)科盛,這個(gè)你很容易理解医吊,它就是兩個(gè)系數(shù)的變化基本上畫出來以后都在一個(gè)直線分布上,此增彼漲背镇,兩個(gè)變量都一起增加蔓涧,比如我們上下班的距離和時(shí)間谁帕。同樣惶凝,負(fù)相關(guān)是一個(gè)此增彼減斜著向下的趨勢吼虎,這種方式也比較容易判斷。

指數(shù)增長和上節(jié)課的指數(shù)分布有些類似苍鲜,只不過指數(shù)分布計(jì)算的是一個(gè)加起來的累計(jì)分布值鲸睛,而指數(shù)增長指的是兩個(gè)具體數(shù)值的關(guān)系。指數(shù)級別的變化坡贺,一般背后都醞釀著極大的商機(jī)和機(jī)會。

正 U 型趨勢和反 U 型趨勢,這兩個(gè)也是比較常見的趨勢線遍坟。它的樣子其實(shí)就像字母的 U拳亿,或者是倒過來的 U(從零開始從零結(jié)束)。一個(gè)比較著名的反 U 型趨勢就是經(jīng)濟(jì)學(xué)里面的“拉弗曲線”( Laffer curve)愿伴,這條曲線最典型地反映了政府稅收收入和稅率之間的關(guān)系肺魁。當(dāng)稅率開始增加時(shí),稅收一開始也會隨之增加隔节,但是當(dāng)增加到一定程度鹅经,大家就交不起稅了,重稅導(dǎo)致企業(yè)開始倒閉和破產(chǎn)怎诫,這時(shí)候整體稅收反而開始減小瘾晃,到最終稅率為 100% 時(shí),其實(shí)企業(yè)會全部破產(chǎn)幻妓,稅收反而是 0 了蹦误。

數(shù)據(jù)分析的藝術(shù)就在于通過數(shù)據(jù)分析和管理經(jīng)驗(yàn)找到反 U 型最高點(diǎn),如果你能很好把握你所在公司的反 U 型曲線高點(diǎn)肉津,你大概率是公司的管理層了强胰。

散點(diǎn)圖的易錯(cuò)點(diǎn)

過度依賴散點(diǎn)圖會造成你的判斷錯(cuò)誤。最常見的三個(gè)錯(cuò)誤就是趨勢誤判妹沙、得克薩斯神槍手謬誤和幸存者偏差偶洋。

趨勢誤判

趨勢誤判是指在你看到了一個(gè)數(shù)據(jù)之后,因?yàn)閿?shù)據(jù)整體還不夠完整距糖,你錯(cuò)誤判斷了這個(gè)數(shù)據(jù)的未來增長趨勢玄窝。

當(dāng)你在拿到一個(gè)散點(diǎn)圖,要去判斷它是哪種數(shù)據(jù)趨勢的時(shí)候肾筐,一定要看最終的數(shù)字偏差和實(shí)際情況哆料,才能做出準(zhǔn)確判斷。趨勢線這個(gè)畫龍點(diǎn)睛的一筆吗铐,不是那么容易給出的东亦。通過散點(diǎn)圖最終判斷是什么模型是非常不容易,很多時(shí)候需要非常多的數(shù)據(jù)和復(fù)雜的模型唬渗,這也最終導(dǎo)致了人工智能算法的出現(xiàn)典阵,當(dāng)然這是后話了。現(xiàn)在你只要記住镊逝,沒有正確的數(shù)據(jù)驗(yàn)證壮啊,千萬不要輕易下結(jié)論

得克薩斯神槍手謬誤

當(dāng)年在美國西部得克薩斯州發(fā)現(xiàn)一個(gè)神槍手,他經(jīng)常在各地的民居的墻上練習(xí)射擊撑蒜,幾乎他所有的彈孔都集中在十環(huán)左右這個(gè)中心的區(qū)域歹啼。他已經(jīng)成為了神話玄渗,人們一直在尋找他。但是當(dāng)人們真的找到了這個(gè)神槍手后狸眼,發(fā)現(xiàn)他自己打槍其實(shí)一點(diǎn)都不準(zhǔn)藤树,也不敢跟其他人去決斗。那他墻上的這些靶子和子彈點(diǎn)是怎么形成的呢拓萌?后來人們才發(fā)現(xiàn)岁钓,原來他是先朝墻上開很多槍,然后在彈孔最密集的地方畫上了十環(huán)的靶子微王,再把散布在其它地方的彈孔用原來的泥土補(bǔ)起來屡限。這樣看上去,他每個(gè)地方打的靶子都很準(zhǔn)確炕倘,因?yàn)橄扔袕椏拙螅儆邪凶印?/p>

在我們?nèi)粘I町?dāng)中也很容易出現(xiàn)這種情況,當(dāng)你看到一個(gè)數(shù)據(jù)散點(diǎn)報(bào)告的時(shí)候激才,你一定要看清背后所蘊(yùn)含的實(shí)際數(shù)據(jù)是不是涵蓋了所有的數(shù)據(jù)拓型,還是只給你看了最有這種數(shù)據(jù)規(guī)律的數(shù)據(jù)。

前者就像先有靶子來瞄準(zhǔn)再去射擊瘸恼,后者就好比先射擊完最后再畫上靶子劣挫,這樣結(jié)果會完全不同。依據(jù)數(shù)據(jù)決策很重要东帅,但是也不要被數(shù)據(jù)給騙了压固。

幸存者偏差

我們小的時(shí)候,鄰居家的小孩永遠(yuǎn)比我們要更厲害靠闭,其實(shí)孩子都是差不多的帐我,只不過最后我們看到的是鄰居家小孩當(dāng)中的那些優(yōu)勝者。在分析散點(diǎn)圖的時(shí)候看到了規(guī)律愧膀,還要了解最終這個(gè)規(guī)律形成的原因和背后的場景拦键,不要簡單通過一個(gè)圖表就得出你的結(jié)論。

在工作和生活當(dāng)中檩淋,每天都會有各種各樣的事發(fā)生芬为,如果我們只是關(guān)注事情本身,而沒有看到背后的規(guī)律蟀悦,那么我們就會像沒有趨勢線的散點(diǎn)圖一樣媚朦,都是零散的點(diǎn),抓不住背后隱藏的那根線日戈,感覺每天都是忙忙碌碌询张,但其實(shí)自己碌碌無為。畫這根線就是要找到你生命里的規(guī)律浙炼,在數(shù)據(jù)科學(xué)里我們叫做算法份氧,生活當(dāng)中我們叫做哲學(xué)唯袄。

小到我們自己投資和回報(bào),大到整個(gè)宇宙里面星體之間的分布蜗帜,我們都可以通過散點(diǎn)圖來找到背后隱藏的規(guī)律越妈。

要做一個(gè)正確的散點(diǎn)圖,我們需要注意三個(gè)要點(diǎn):

確定兩個(gè)變量坐標(biāo)軸钮糖;

坐標(biāo)軸的起始值和顆粒度要合適;

要找到合適的趨勢線和趨勢模型進(jìn)行描述酌住。

在使用散點(diǎn)圖時(shí)店归,容易犯的錯(cuò)誤:

利用散點(diǎn)圖做深入數(shù)據(jù)分析的時(shí)候不要輕易下結(jié)論(身高和體重在生長期是成正比的,你成年了自然也就不會再是正比了)酪我;

不能由現(xiàn)有結(jié)果給出趨勢判斷(做事情無論成功了還是失敗了消痛,都不要用上天的安排來麻痹自己),還需要了解規(guī)律形成的最終原因和背后的場景都哭;

不要用片面的數(shù)據(jù)來證明你的規(guī)律(不要片面看問題秩伞,別人家的孩子真的不比我們好多少)。

此文章為11月Day23學(xué)習(xí)筆記欺矫,內(nèi)容來源于極客時(shí)間《數(shù)據(jù)分析思維課》纱新,強(qiáng)烈推薦該課

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市穆趴,隨后出現(xiàn)的幾起案子脸爱,更是在濱河造成了極大的恐慌,老刑警劉巖未妹,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件簿废,死亡現(xiàn)場離奇詭異,居然都是意外死亡络它,警方通過查閱死者的電腦和手機(jī)族檬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來化戳,“玉大人单料,你說我怎么就攤上這事∮厮福” “怎么了看尼?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長盟步。 經(jīng)常有香客問我藏斩,道長,這世上最難降的妖魔是什么却盘? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任狰域,我火速辦了婚禮媳拴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘兆览。我一直安慰自己屈溉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布抬探。 她就那樣靜靜地躺著子巾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪小压。 梳的紋絲不亂的頭發(fā)上线梗,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天,我揣著相機(jī)與錄音怠益,去河邊找鬼仪搔。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蜻牢,可吹牛的內(nèi)容都是我干的烤咧。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼抢呆,長吁一口氣:“原來是場噩夢啊……” “哼煮嫌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起镀娶,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤立膛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后梯码,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宝泵,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年轩娶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了儿奶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,673評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鳄抒,死狀恐怖闯捎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情许溅,我是刑警寧澤瓤鼻,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站贤重,受9級特大地震影響茬祷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜并蝗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一祭犯、第九天 我趴在偏房一處隱蔽的房頂上張望秸妥。 院中可真熱鬧,春花似錦沃粗、人聲如沸粥惧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽突雪。三九已至,卻和暖如春涡贱,著一層夾襖步出監(jiān)牢的瞬間挂签,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工盼产, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人勺馆。 一個(gè)月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓戏售,卻偏偏與公主長得像,于是被迫代替她去往敵國和親草穆。 傳聞我的和親對象是個(gè)殘疾皇子灌灾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容