根據(jù)dataframe中兩列的數(shù)值同時(shí)出現(xiàn)與否匀油，創(chuàng)建一個(gè)稀疏矩陣缘缚，使用scipy.sparse.coo_matrix

最近學(xué)習(xí)coursera上的 How to Win a Data Science Competition: Learn from Top Kagglers 的課程，在完成其中一個(gè)jupyter notebook的作業(yè)時(shí)敌蚜，遇到了一個(gè)問題桥滨，想寫一篇關(guān)于這個(gè)問題解決方案的文章。

問題：給定一個(gè)dataframe弛车，如果其中兩列的數(shù)值同時(shí)出現(xiàn)该园，在稀疏矩陣中相應(yīng)的位置賦值為1，否則為0帅韧，該稀疏矩陣也可以稱作Incidence matrix。?

我使用scipy.sparse.coo_matrix((data, (row, col))) 方法創(chuàng)建稀疏矩陣啃勉，還有其他的方法可以創(chuàng)建正確的稀疏矩陣忽舟，感興趣的小伙伴可以自行搜索，并歡迎在下方留言淮阐，供大家學(xué)習(xí)叮阅。

假設(shè)我們的dataframe如下圖所示，要?jiǎng)?chuàng)建一個(gè)稀疏矩陣泣特，當(dāng)a和b的數(shù)據(jù)（i浩姥，j）同時(shí)出現(xiàn)時(shí)，稀疏矩陣在（i状您，j）位置的值為1勒叠，其余地方的值都為0：

首先明確我們想要得到的稀疏矩陣的形式，如下膏孟，并且空白的地方都是0：

明確了稀疏矩陣長什么樣之后眯分，如何使用scipy.sparse.coo_matrix函數(shù)，創(chuàng)建一個(gè)相應(yīng)的稀疏矩陣呢柒桑？

coo_matrix 函數(shù)需要接收三個(gè)參數(shù)弊决，data，row 和 col魁淳。下面通過上述的例子飘诗，簡述我是如何確定這三個(gè)參數(shù)的。

第一步界逛，合并“a” 和 “b” 中的數(shù)值昆稿，分別以?“a”—> "b" 的順序和“b”—>“a”的順序合并，暫且稱作我們的dataframe 為df仇奶。具體方式如下：

row_temp = df.a.append(df.b)

col_temp = df.b.append(df.a)

第二步貌嫡，按照列合并row_temp 和?col_temp比驻，目的是為了刪除重復(fù)的行，可以看到在我們的例子中有（0岛抄，5）和（5别惦，0）這樣的兩對，當(dāng)我們只有（0夫椭，5）或者只有（5掸掸，0）這樣一對的時(shí)候，就會在稀疏矩陣的（0蹭秋，5）和（5扰付，0）的位置都填上1，所以我們要?jiǎng)h除其中的一對仁讨，保證我們的稀疏矩陣中只包含數(shù)值0或者數(shù)值1羽莺。

df_temp = pd.concat([row_temp, col_temp], axis=1)

df_temp = df_temp.drop_duplicates()

第三步，明確row和col參數(shù)

row = df_temp[0]

col = df_temp[1]

第四步洞豁，明確data參數(shù)

data = np.ones(len(row))

第五步盐固，找到了data，row和col參數(shù)丈挟，將它們填入到coo_matrix函數(shù)刁卜，創(chuàng)建稀疏矩陣

sp_mat = scipy.sparse.coo_matrix((data, (row, col)),dtype=int)

第六步，判斷我們生成的稀疏矩陣是否正確

assert sp_mat.max() == 1

如果想看到更加詳細(xì)的說明與code曙咽，可以點(diǎn)擊這里蛔趴，進(jìn)入到我的github中查看。

如果有喜歡的小伙伴例朱，請點(diǎn)擊關(guān)注并給個(gè)贊??吧孝情，謝謝！＼约獭咧叭！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市烁竭，隨后出現(xiàn)的幾起案子菲茬，更是在濱河造成了極大的恐慌，老刑警劉巖派撕，帶你破解...
沈念sama閱讀 222,464評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件婉弹，死亡現(xiàn)場離奇詭異，居然都是意外死亡终吼，警方通過查閱死者的電腦和手機(jī)镀赌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來际跪，“玉大人商佛，你說我怎么就攤上這事喉钢。” “怎么了良姆？”我有些...
開封第一講書人閱讀 169,078評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵肠虽，是天一觀的道長。經(jīng)常有香客問我玛追，道長税课，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,979評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任痊剖，我火速辦了婚禮韩玩，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘陆馁。我一直安慰自己找颓，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,001評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布叮贩。她就那樣靜靜地躺著叮雳，像睡著了一般。火紅的嫁衣襯著肌膚如雪妇汗。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,584評論 1贊 312
城市分裂傳說
那天说莫，我揣著相機(jī)與錄音杨箭，去河邊找鬼。笑死储狭，一個(gè)胖子當(dāng)著我的面吹牛互婿，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播辽狈，決...
沈念sama閱讀 41,085評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼慈参，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了刮萌？” 一聲冷哼從身側(cè)響起驮配，我...
開封第一講書人閱讀 40,023評論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎着茸，沒想到半個(gè)月后壮锻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,555評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡涮阔，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,626評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年猜绣，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敬特。...
茶點(diǎn)故事閱讀 40,769評論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡掰邢，死狀恐怖牺陶，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情辣之，我是刑警寧澤掰伸，帶...
沈念sama閱讀 36,439評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站召烂，受9級特大地震影響碱工，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜奏夫，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,115評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一怕篷、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧酗昼，春花似錦廊谓、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評論 0贊 25
一樁弒父案蒸痹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至呛哟，卻和暖如春叠荠，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背扫责。一陣腳步聲響...
開封第一講書人閱讀 33,702評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工榛鼎，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人鳖孤。一個(gè)月前我還...
沈念sama閱讀 49,191評論 3贊 378
代替公主和親
正文我出身青樓者娱，卻偏偏與公主長得像，于是被迫代替她去往敵國和親苏揣。傳聞我的和親對象是個(gè)殘疾皇子黄鳍，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,781評論 2贊 361

根據(jù)dataframe中兩列的數(shù)值同時(shí)出現(xiàn)與否柏卤，創(chuàng)建一個(gè)稀疏矩陣，使用scipy.sparse.coo_matrix

根據(jù)dataframe中兩列的數(shù)值同時(shí)出現(xiàn)與否匀油，創(chuàng)建一個(gè)稀疏矩陣缘缚，使用scipy.sparse.coo_matrix

如果有喜歡的小伙伴例朱，請點(diǎn)擊關(guān)注并給個(gè)贊??吧孝情，謝謝！＼约獭咧叭！

推薦閱讀更多精彩內(nèi)容