安然項(xiàng)目-文檔

  • 項(xiàng)目目標(biāo)是通過(guò)數(shù)據(jù)找出盜用公司資金的嫌疑人;通過(guò)機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)未標(biāo)記的人是否是嫌疑人其兴;

  • 2000年美國(guó)最大十家公司之一的安然公司在2002年突然破產(chǎn)莺戒,其中公司內(nèi)存在嚴(yán)重的欺詐行為,數(shù)據(jù)集就是安然公司高管的郵件和詳細(xì)財(cái)務(wù)的數(shù)據(jù)婉支,可以根據(jù)未標(biāo)記人跟嫌疑人的郵件往來(lái)信息和財(cái)務(wù)數(shù)據(jù)來(lái)預(yù)測(cè)一個(gè)人是否是嫌疑人秉颗,其中得到財(cái)務(wù)最大的人就很有可能是嫌疑人痢毒,跟嫌疑人交流相對(duì)密集的人也可能是嫌疑人。

  • 數(shù)據(jù)集共有146個(gè)人的郵件和財(cái)務(wù)信息蚕甥,其7個(gè)郵件信息哪替,13個(gè)財(cái)務(wù)信息,其中18個(gè)已知的嫌疑人和128個(gè)非嫌疑人菇怀,數(shù)據(jù)不均衡凭舶;

  • 異常值:’LOCKHART EUGENE E’信息全為nan沒(méi)有價(jià)值刪除掉,TOTAL和TRAVEL AGENCY IN THE PARK可能是拼寫(xiě)錯(cuò)誤刪除掉爱沟,其余的nan值設(shè)置成0库快;email_address,loan_advances這兩個(gè)特征不是數(shù)值或布爾型的數(shù)量太多了钥顽,沒(méi)有價(jià)值刪除掉。

  • 這里因?yàn)閿?shù)據(jù)不均衡所以使用Precision(精確率)和Recall(召回率)來(lái)衡量效果靠汁;
    Precision(精確率)是計(jì)算對(duì)是"正確被檢索的item"占所有“實(shí)際被檢索到的item”的比列
    在這里就是(poi的人被檢索為poi的人數(shù))/(檢索到的poi的總數(shù))
    Recall(召回率)"正確被檢索的item"占所有"應(yīng)該被檢索到的item"的比例
    這里就是(正確被檢索為poi的人數(shù))/(實(shí)際的poi人數(shù)=18)

最終使用[other','from_this_person_to_poi''expenses','exercised_stock_options']這組特征蜂大,通過(guò)交叉驗(yàn)證StratifiedShuffleSplit和feature_importances_從兩個(gè)特征數(shù)量試到十個(gè)特征數(shù)量發(fā)現(xiàn)4個(gè)特征數(shù)量表現(xiàn)最好,

新增加bns和poi_messages蝶怔,bns特征即salary和bonus之和通過(guò)這個(gè)特征可以避免遺漏salary與bonus之和很大而其中一個(gè)值很小的情況奶浦,poi_messages及(from_poi_to_this_person/from_messages)通過(guò)這個(gè)特征可以知道那些人跟poi 郵件交往更多;

  • 貝葉斯和決策樹(shù)對(duì)特征縮放不敏感但是用到的SVM算法踢星,統(tǒng)一縮放特征澳叉;

  • 用feature_importances_查看特征的重要性'other'得分0.057,from_this_person_to_poi得分0.036沐悦,expenses得分0.071成洗,exercised_stock_options得分0.0633;用交叉驗(yàn)證和feature_importances_方法跑了10次分別選出了在3藏否、4瓶殃、5個(gè)特征數(shù)中得分最高的一組特征:

  • 3個(gè)特征['exercised_stock_options', 'deferred_income', 'poi_messages']得分Precision=0.45, Recall=0.42,

  • 4個(gè)特征[other', 'from_this_person_to_poi'; 'expenses', 'exercised_stock_options']得分Precision=0.52副签,Recall=0.48遥椿;

  • 5個(gè)特征['expenses', 'total_stock_value', 'bns', 'other', 'exercised_stock_options']得分Precision=0.41基矮,Recall=0.42;

  • 還有一個(gè)重復(fù)出現(xiàn)在這里個(gè)高得分特征集中的特征集['exercised_stock_options', 'other', 'expenses']得分Precision=0.43冠场,Recall=0.42家浇;

綜合以上最終選用四個(gè)特征的特征集得到

  • Precision=0.52,Recall=0.48
    因?yàn)镚ridSearchCV默認(rèn)使用的StratifedKFold的交叉驗(yàn)證方式碴裙,但是測(cè)試時(shí)使用的是StratifiedShuffleSplit方式钢悲,所以放棄使用GridSearchCV改為手動(dòng)調(diào)整參數(shù)。調(diào)整max_depth-初始的樹(shù)的深度青团,更好擬合數(shù)據(jù)譬巫。

最終使用了決策樹(shù)算法,還嘗試貝葉斯算法督笆,貝葉斯算法Precision和Recall值差距較大芦昔,決策樹(shù)算法Precision和Recall差距較小

  • 用同一特征[other', 'from_this_person_to_poi'; 'expenses', 'exercised_stock_options']決策樹(shù)得分Precision=0.52娃肿,Recall=0.48咕缎;貝葉斯得分Precision=0.48,Recall=0.19料扰,這一組特征貝葉斯的精確率和召回率明顯低于決策樹(shù)特別是召回率還不到0.2說(shuō)明這一組特征用貝葉斯正確分類到的poi很低凭豪。

  • 貝葉斯算法:選出3-7個(gè)特征集的最佳特征和一個(gè)特征多次出現(xiàn)在這幾個(gè)特征集里面的額特征集,最后得出6個(gè)特征集效果最好Precision=0.48晒杈,Recall=0.41嫂伞,特征為['poi', 'exercised_stock_options', 'bns', 'long_term_incentive', 'poi_messages', 'salary', 'bonus', 'deferred_income']
    最終選擇了決策樹(shù)算法4個(gè)特征集為 ['poi', 'other', 'from_this_person_to_poi', 'expenses', 'exercised_stock_options']
    Precision=0.52,Recall=0.48
    在決策樹(shù)上最佳特征集中加入新特征bns,看看Precision和Recall是不是比原來(lái)高拯钻,加入新特征后Precision=0.40帖努,Recall=0.38,所以這個(gè)特征沒(méi)有選好粪般,不用在最終特征中拼余,

優(yōu)化分類器的性能,使分類器能夠更好地?cái)M合數(shù)據(jù)亩歹,不調(diào)整參數(shù)分類起不能更好的擬合數(shù)據(jù)匙监;調(diào)整的方式在一個(gè)參數(shù)的范圍內(nèi)循環(huán)遍歷選擇最佳參數(shù)。
最終選擇的是決策樹(shù)分類器調(diào)整了criterion參數(shù)小作,選擇用‘gini’代表基尼系數(shù)
max_depth表示決策樹(shù)最大的深度設(shè)置成9 亭姥,如果不調(diào)試max_depth數(shù)據(jù)擬合不太好。

項(xiàng)目用驗(yàn)證方法評(píng)估分類器的性能避免過(guò)擬合躲惰,數(shù)據(jù)分為訓(xùn)練集和測(cè)試集端三,用交叉驗(yàn)證驗(yàn)證我的分析

參考資料:
Udacity數(shù)據(jù)分析進(jìn)階P5項(xiàng)目
Air DU分享gitHhub項(xiàng)目
安然事件的概括

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末神妹,一起剝皮案震驚了整個(gè)濱河市打掘,隨后出現(xiàn)的幾起案子盯蝴,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡击儡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)蝠引,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)阳谍,“玉大人,你說(shuō)我怎么就攤上這事螃概〗煤唬” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵吊洼,是天一觀的道長(zhǎng)训貌。 經(jīng)常有香客問(wèn)我,道長(zhǎng)冒窍,這世上最難降的妖魔是什么递沪? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮综液,結(jié)果婚禮上款慨,老公的妹妹穿的比我還像新娘。我一直安慰自己谬莹,他們只是感情好檩奠,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著附帽,像睡著了一般笆凌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上士葫,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音送悔,去河邊找鬼慢显。 笑死,一個(gè)胖子當(dāng)著我的面吹牛欠啤,可吹牛的內(nèi)容都是我干的荚藻。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼洁段,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼应狱!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祠丝,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤疾呻,失蹤者是張志新(化名)和其女友劉穎除嘹,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體岸蜗,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡尉咕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了璃岳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片年缎。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖铃慷,靈堂內(nèi)的尸體忽然破棺而出单芜,到底是詐尸還是另有隱情,我是刑警寧澤犁柜,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布洲鸠,位于F島的核電站,受9級(jí)特大地震影響赁温,放射性物質(zhì)發(fā)生泄漏坛怪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一股囊、第九天 我趴在偏房一處隱蔽的房頂上張望袜匿。 院中可真熱鬧,春花似錦稚疹、人聲如沸居灯。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)怪嫌。三九已至,卻和暖如春柳沙,著一層夾襖步出監(jiān)牢的瞬間岩灭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工赂鲤, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留噪径,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓数初,卻偏偏與公主長(zhǎng)得像找爱,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子泡孩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容