1. 什么是互信息许昨,互信息vs相關(guān)性的關(guān)系
吳軍老師講的概念本身不難懂盐,信息之間是有相關(guān)性的,互信息是度量相關(guān)性的尺子糕档。簡(jiǎn)單的理解莉恼,互信息越高,相關(guān)性也越高速那。
相關(guān)系數(shù) vs 互信息:
- 線性相關(guān)系數(shù)俐银,從統(tǒng)計(jì)學(xué)出發(fā)度量信息A、B的關(guān)系端仰,范圍在-1到1捶惜,即有正相關(guān)和負(fù)相關(guān)。0表示相關(guān)
- 互信息荔烧,從聯(lián)合概率的角度計(jì)算吱七,可以理解為A出現(xiàn)的時(shí)候B出現(xiàn)的概率,概率范圍是從0到1鹤竭,即完全不確定到完全確定
2. 穩(wěn)定的強(qiáng)相關(guān)性才值得關(guān)注
大數(shù)據(jù)的維度非常多踊餐,例如個(gè)人信息包括:籍貫、學(xué)歷臀稚、工作吝岭、房產(chǎn)、收入吧寺、身高窜管、體重等等,分別計(jì)算這些數(shù)據(jù)與財(cái)富水平的互信息稚机。顯然學(xué)歷和收入會(huì)是強(qiáng)相關(guān)幕帆,但體重?cái)?shù)據(jù)和財(cái)富水平的互信息也不會(huì)是0,例如0.1抒钱,這樣的相關(guān)性我們要不要關(guān)注呢蜓肆?通過(guò)體重判斷一個(gè)人的財(cái)富顯然是不合理的颜凯。
數(shù)據(jù)和指標(biāo)都不缺,值得關(guān)注的是強(qiáng)相關(guān)性仗扬,而且要穩(wěn)定症概。一些時(shí)靈時(shí)不靈的指標(biāo),實(shí)際上是噪音早芭,信貸機(jī)構(gòu)的風(fēng)控模型需要定時(shí)更新彼城,因?yàn)橹笜?biāo)的有效性會(huì)改變。例如退个,淘寶按一個(gè)人支付的頻率判斷是不是刷單募壕,商家發(fā)現(xiàn)這樣的規(guī)則之后,可能找更多的人分布刷單语盈,那么原來(lái)的指標(biāo)就不靈了舱馅。
3. 利用互信息,就是尋找代理變量
互信息的利用刀荒,就是要用容易獲取的數(shù)據(jù)代嗤,推斷難以觀測(cè)的數(shù)據(jù)。用廉價(jià)的數(shù)據(jù)作為代理變量缠借,推斷更有價(jià)值的信息干毅。
例如,宏觀經(jīng)濟(jì)的走勢(shì)對(duì)于資產(chǎn)配置很重要泼返,但難以直接獲取硝逢,香帥老師提出用社融、PPI绅喉、固定投資等公開(kāi)數(shù)據(jù)來(lái)推斷宏觀走勢(shì)渠鸽。更進(jìn)一步,等到央行數(shù)據(jù)公開(kāi)霹疫,信息就會(huì)反映在價(jià)格中拱绑,所以很多金融機(jī)構(gòu)會(huì)用其他信息(房產(chǎn)交易量综芥、汽車銷售量)等信息去推斷社融的增速丽蝎,因此往往在官方數(shù)據(jù)公布之前,市場(chǎng)價(jià)格就會(huì)發(fā)生變化膀藐。
總結(jié):尋找強(qiáng)相關(guān)性屠阻,挖掘代理變量,利用信息獲利额各。