日前靴拱,著名導(dǎo)演英達(dá)因?yàn)榉欠ǖ摹艾F(xiàn)金拆分行為”而惹上官非野崇。作為美國綠卡持有者,在2011年4月到2012年3月之間的11個(gè)月之內(nèi)八毯,他先后把46.4萬美元存入他和他妻子在四家銀行的六個(gè)銀行賬戶中。為了繞過監(jiān)控瞄桨,他每次存錢額度都低于1萬元话速,前后分50次存入。
根據(jù)美國法律芯侥,超過一萬美金的存款就要填寫“現(xiàn)金交易報(bào)告”尿孔,結(jié)合英達(dá)案來看,每次的轉(zhuǎn)賬貌似都沒有構(gòu)成違法筹麸,但是這種行為是有意為之活合。這種刻意的分立賬戶、分期分批打入錢財(cái)?shù)惹闆r物赶,也自然不在法律允許的范圍之內(nèi)白指。
對此,我的第一感覺是酵紫,英達(dá)先生一定沒有讀過統(tǒng)計(jì)學(xué)告嘲。他大概不知道错维,這種刻意的數(shù)據(jù)偽造,在今日的大數(shù)據(jù)運(yùn)行效率之下橄唬,非常容易被計(jì)算機(jī)識別出來赋焕。
在《剪刀石頭布:如何成為超級預(yù)測者》這本書中,就介紹了不少數(shù)據(jù)偽造的案例仰楚,以及如何被識破的故事隆判。除了人性中的心理影響以外,這些案例的破解僧界,也和統(tǒng)計(jì)學(xué)中的概率有關(guān)侨嘀。
我們先說一個(gè)簡單的:某個(gè)數(shù)學(xué)教授多年以來,一直在課堂上進(jìn)行隨機(jī)性實(shí)驗(yàn)捂襟。他讓同學(xué)們分為兩組咬腕,一組連拋硬幣200次,并記錄結(jié)果葬荷,另一組直接編造數(shù)據(jù)涨共。
然后,教授只需要掃一眼作業(yè)宠漩,就能幾乎完全正確的判斷出哪些是偽造的數(shù)據(jù)举反。
你知道關(guān)鍵在哪里嗎?拋擲200次硬幣的真正隨機(jī)數(shù)據(jù)哄孤,幾乎肯定會出現(xiàn)6個(gè)連續(xù)的人頭或字照筑,但幾乎沒有人在編造隨機(jī)序列的時(shí)候,敢真的這么做瘦陈。
還有一個(gè)案例凝危,某個(gè)餐館的老板做了假賬,編篡了每個(gè)星期的營業(yè)額晨逝。而某位會計(jì)學(xué)學(xué)生正好在此打工蛾默。賬簿在內(nèi)行人眼里,錯的非常明顯:n多數(shù)據(jù)末尾中沒有一個(gè)以00為結(jié)尾捉貌,因?yàn)閭卧鞌?shù)據(jù)者往往認(rèn)為整數(shù)不夠隨機(jī)支鸡。
而在真正世界中,從00到99趁窃,每組兩位數(shù)的出現(xiàn)概率約為1%牧挣。
看,如果你不懂得統(tǒng)計(jì)學(xué)的概率醒陆,你肯定編不出來正常的數(shù)據(jù)瀑构,你會犯的錯誤包括,但不限于以下幾方面:
多次運(yùn)用了個(gè)人偏愛的數(shù)字(每個(gè)人都有偏愛的數(shù)字)刨摩;
有意識的避免整齊的數(shù)字寺晌,或者連續(xù)的數(shù)字世吨,以為它們“不夠隨機(jī)”;
如果數(shù)據(jù)有上限呻征,比如報(bào)銷金額是500耘婚,你可能會多次采用478,485這類數(shù)字......
當(dāng)人們在數(shù)據(jù)上造假時(shí),他必須捏造一系列看似正常陆赋,沒有可疑之處的隨機(jī)數(shù)字沐祷。而我們認(rèn)為的“沒有可疑”,事實(shí)上可能是大大的可疑奏甫。
如果真要對付機(jī)器戈轿,我胡亂想了兩個(gè)辦法:
1.與其你一個(gè)人凌受,你需要小伙伴的加入阵子。由于每個(gè)人無意識偏愛的數(shù)字不同,本應(yīng)異常明顯的偽造者的愛好被平均了胜蛉。
2. 與其你一個(gè)人苦思冥想的寫啊寫挠进,不如利用計(jì)算機(jī)生成的隨機(jī)數(shù)字吧。但是采用計(jì)算機(jī)生成的隨機(jī)數(shù)字誊册,并不一定能達(dá)到你的目的领突。
即使如此,因?yàn)橛?jì)算機(jī)同時(shí)進(jìn)行多種算法檢測案怯,愚弄計(jì)算機(jī)還是非常的困難......所以君旦,我們打消這些小念頭吧。
Naive呀嘲碱,英達(dá)先生金砍。46.4萬分50次存入,每次上限少于1萬元麦锯,說明這些錢幾乎都是以9千多元的金額存入的恕稠。連著50次存入9000多元,這不是有點(diǎn)奇怪么扶欣?大多數(shù)人存錢鹅巍,就算不是從1到9分布排列,但也不會連著50次都在9000多元吧料祠。在大數(shù)據(jù)運(yùn)算和監(jiān)測如此快速的今天骆捧,這筆賬被翻出來并不奇怪。
事實(shí)上髓绽,書中有一個(gè)章節(jié)敛苇,就記述了本福特定理在美國國稅和執(zhí)法部門的運(yùn)用。
1920年代梧宫,物理學(xué)家本福特在紐約州一家通用電氣公司效力接谨,他發(fā)現(xiàn)摆碉,很多數(shù)據(jù)在首位數(shù)的分布并不平均,其中以1為最多脓豪。因?yàn)樽匀灰?guī)律巷帝,這種分布適用于各類型的數(shù)據(jù),但不適用于電話號碼扫夜、郵編等人為規(guī)定平均分布的數(shù)值楞泼。
之后,本福特定律被一個(gè)叫尼格里尼的學(xué)者在90年代發(fā)揚(yáng)光大笤闯,其分析方法被執(zhí)法機(jī)構(gòu)堕阔、稅務(wù)機(jī)構(gòu)和私營部門廣泛采納。審計(jì)人員可以利用這一點(diǎn)來判斷數(shù)據(jù)是真實(shí)可信的還是偽造出來的颗味。
早在1998年超陆,紐約時(shí)報(bào)就曾報(bào)道,包括加利福尼亞州在內(nèi)浦马,美國好幾個(gè)州的稅務(wù)機(jī)構(gòu)都使用以本福特定律為基礎(chǔ)的檢測軟件时呀。因此,利用計(jì)算機(jī)檢測數(shù)據(jù)由來已久晶默,只不過外行人沒想到或者不理解而已谨娜。
當(dāng)然,也有很多正當(dāng)理由使得首位數(shù)與本福特定律不符磺陡。不過還有次位數(shù)定理趴梢,此時(shí)檢驗(yàn)前兩位數(shù)便有作用,這會生成有100個(gè)矩形的直方圖币他。這樣不符合的幾率就會大大的降低坞靶。
在當(dāng)今,白領(lǐng)犯罪的主要手段就是虛構(gòu)數(shù)字圆丹,做假賬滩愁,例如在銷售數(shù)據(jù)上篡改數(shù)字,在申報(bào)單上做手腳辫封。當(dāng)人們捏造數(shù)字時(shí)硝枉,數(shù)字會出現(xiàn)可預(yù)測的模式,能夠辨識出這些模式的人就能迅速核查財(cái)務(wù)數(shù)據(jù)的可信度倦微。
因此妻味,英達(dá)先生事件并非偶然,而是一種必然欣福。他心存僥幸心理责球,只不過是沒有學(xué)過統(tǒng)計(jì)學(xué),沒有意識到數(shù)據(jù)的規(guī)律如此強(qiáng)大而已。
書中后面還討論安然的虛假年報(bào)雏逾,麥道夫捏造的收益率從數(shù)據(jù)上看是多么的不正常嘉裤,例如,安然公司在2001年到2002年所公布的每股盈利數(shù)字就不符合本福特定律栖博,這證明了安然的高層領(lǐng)導(dǎo)確實(shí)改動過這些數(shù)據(jù)屑宠。也多少教會你識破年報(bào)和公司財(cái)務(wù)數(shù)據(jù)中的偽造,在今日的A股市場大概也會很有用吧仇让。
有一本統(tǒng)計(jì)學(xué)書的封面上寫著:“懂得統(tǒng)計(jì)學(xué)的人典奉,運(yùn)氣都不會太差∩ミ矗”——確實(shí)如此卫玖。