【競(jìng)賽】商場(chǎng)中精確定位用戶所在店鋪(初賽)

競(jìng)賽首頁(yè)
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231620
本文地址
http://www.reibang.com/p/a9c8fc185cb6

復(fù)賽的全隊(duì)躺尸狀態(tài)沒(méi)人整理抄肖、、窖杀、這里主要是初賽部分,個(gè)人前期的一些思路漓摩,且做備份。陈瘦。。有空再完善吧。痊项。锅风。有空吧。鞍泉。皱埠。

1.題目概述

場(chǎng)景目的:商場(chǎng)+支付寶口碑,當(dāng)用戶在商場(chǎng)逛街時(shí)咖驮,定位其所在店鋪边器,在其付費(fèi)前推送相關(guān)優(yōu)惠券,使其享受優(yōu)惠/促進(jìn)消費(fèi)托修,提高用戶體驗(yàn)忘巧。
定位根據(jù):當(dāng)用戶使用支付寶付費(fèi)時(shí),后臺(tái)采集了此時(shí)手機(jī)的狀態(tài)(用戶ID睦刃、時(shí)間砚嘴、GPS定位、wifi信號(hào)強(qiáng)度及連接)涩拙、被掃碼的商店的信息(商店ID际长、商場(chǎng)ID、商店消費(fèi)水平兴泥、商店位置)工育。這樣有了當(dāng)手機(jī)此狀態(tài)下,在此商店附近

2.分析與思考

1.問(wèn)題的目標(biāo)是定位到商店搓彻,所能使用的信息是在店時(shí)的wifi狀態(tài)如绸、GPS狀態(tài),及其他的一些人好唯、店竭沫、時(shí)間信息。
2.GPS信號(hào)存在異常值骑篙,不同商店的GPS重疊嚴(yán)重蜕提,但除異常值外也可以呈現(xiàn)出聚集狀態(tài),有些商場(chǎng)甚至可以呈現(xiàn)清晰輪廓靶端。
3.WIFI信號(hào)最為關(guān)鍵谎势,但wifi信號(hào)也常常不穩(wěn)定,如:(wifi搜索缺失)同一個(gè)商店并不總能搜到那個(gè)wifi杨名,即使是個(gè)很強(qiáng)的wifi或連接過(guò)的wifi脏榆;(wifi強(qiáng)度穩(wěn)定性)同一個(gè)商店對(duì)同一個(gè)wifi的強(qiáng)度浮動(dòng)。但相對(duì)表達(dá)來(lái)說(shuō)wifi最強(qiáng)勢(shì)台谍。
4.WIFI信息的提取可以考慮兩個(gè)方面须喂,一個(gè)是wifi序列的方面,即檢索到的wifi都納入特征提取坞生;一個(gè)是特征wifi方面仔役,如top1的wifi、最穩(wěn)定的wifi等是己。
5.GPS信息的提取以KNN聚類(lèi)又兵、距離的計(jì)算為主。
6.時(shí)間信息的提取以熱度卒废、周期為主沛厨。

3.多分類(lèi)

傳統(tǒng)的wifi室內(nèi)定位方法有三角定位、wifi指紋識(shí)別等摔认。適合本題即為wifi指紋識(shí)別法(http://www.cnblogs.com/rubbninja/p/6120964.html)逆皮,即多分類(lèi)的方法,但其通常采用KNN模型及其變形级野,且每個(gè)定位點(diǎn)綜合為一套wifi指紋页屠,與傳統(tǒng)指紋識(shí)別不同的是,本例中手機(jī)采集wifi信息時(shí)蓖柔,手機(jī)信號(hào)不一致辰企、wifi類(lèi)型不一致、人所在的位置范圍也不定點(diǎn)况鸣。
所以牢贸,在本題中,采用麥芽的香氣開(kāi)源的方案即可镐捧,一方面采用全部數(shù)據(jù)可以解決每個(gè)定位點(diǎn)(shop)一套指紋的不準(zhǔn)確潜索,另一方面采用xgb等模型比KNN好太多、懂酱、竹习、

wifi指紋識(shí)別

4.二分類(lèi)

二分類(lèi)的選擇理由在于,多分類(lèi)的缺點(diǎn):一個(gè)商場(chǎng)就要訓(xùn)練一個(gè)模型列牺;shop被作為標(biāo)簽后整陌,無(wú)法對(duì)shop進(jìn)行信息的挖掘....(應(yīng)該還有,反正就這么說(shuō)服自己了瞎领、泌辫、)但多分類(lèi)融合二分類(lèi)效果奇佳
二分類(lèi)的構(gòu)建思路如圖,以row_id和shop_id為key九默,進(jìn)行特征工程模型訓(xùn)練預(yù)測(cè)后得到了row-shop的概率震放,取row中概率最高的作為預(yù)測(cè)的shop。
在構(gòu)建負(fù)樣本是驼修,全集則是商場(chǎng)其他商店為負(fù)樣本殿遂,通常采用一定的規(guī)則(日后可做特征)縮減負(fù)樣本比例诈铛,提高正樣本的覆蓋率。我選擇的是對(duì)訓(xùn)練集和測(cè)試集保持一致的方法作候選集墨礁。
特征的構(gòu)建也是從以上分析中的角度進(jìn)行思考癌瘾,常規(guī)的計(jì)數(shù)、比例饵溅、排序、組合以及二分類(lèi)特有的組內(nèi)妇萄。

據(jù)drop-out所開(kāi)源蜕企,采用規(guī)則后對(duì)負(fù)樣本進(jìn)行隨機(jī)采樣,保留所有正樣本也可達(dá)到同樣效果且數(shù)據(jù)量更小
二分類(lèi)示意圖(概率應(yīng)/100)

5.候選與特征

5.1 候選

wifi 計(jì)數(shù)top歷史冠句、GeoKNN聚類(lèi)轻掩、類(lèi)LCS規(guī)則(其中一條歸一化用了測(cè)試集數(shù)據(jù),復(fù)賽廢除了)

5.2 特征

1.第N強(qiáng)wifi作為【前M強(qiáng)wifi】與店鋪交互次數(shù)與平均強(qiáng)度和排序
2.連接wifi與店鋪的【連接】/【交互】次數(shù)與平均強(qiáng)度
3.類(lèi)LCS系列懦底,體現(xiàn)wifi序列信息唇牧,主要是對(duì)相關(guān)特征做加權(quán)來(lái)綜合,如wifi強(qiáng)度rank聚唐,歷史bs強(qiáng)度丐重、計(jì)數(shù)、rank杆查,強(qiáng)度差及歸一化等
4.熱度扮惦,主要是hour-shop/cate
5.組內(nèi)比例【組內(nèi)的作用是平衡不同row之間的差異】
6.強(qiáng)度差 強(qiáng)度差的絕對(duì)值均值方差等
7.位置相關(guān)

6.可視化

用QGIS做的可視化,其實(shí)并沒(méi)有從中看出什么厲害的東西亲桦,加深理解吧就算是崖蜜。
黑色的是商店坐標(biāo),可見(jiàn)其偏的很任性客峭。豫领。。同色的是同一個(gè)shop的舔琅。此商場(chǎng)屬于輪廓很清晰的了等恐。
我感覺(jué)像“商業(yè)街”,不過(guò)也有大佬說(shuō)就是商場(chǎng)內(nèi)搏明,還是傻傻分不清楚鼠锈。


m_7168
http://www.reibang.com/p/25ae219369b8
m_7168

7.體會(huì)

1.從信息量的角度思考——什么特征代表的是哪方面的信息;還有什么方面的信息沒(méi)提出來(lái)星著;已經(jīng)提的信息是否還有改進(jìn)空間购笆;
2.從業(yè)務(wù)出發(fā)思考——這個(gè)業(yè)務(wù)需要哪方面信息來(lái)表達(dá),這個(gè)信息體現(xiàn)為特征應(yīng)該怎么提取虚循。
3.保持交流很重要同欠,否則會(huì)迷失在自己的局限內(nèi)样傍。。
4.有自己作品后再找組隊(duì)铺遂,八字沒(méi)一撇在群里瞎喊是沒(méi)有未來(lái)的衫哥。。襟锐。
5.團(tuán)隊(duì)中保持自己的獨(dú)立性撤逢,或者獨(dú)立開(kāi)發(fā),或者合理分工...要么會(huì)做得很迷==
6.路漫漫其修遠(yuǎn)兮粮坞。蚊荣。。
7.以上莫杈、初賽合隊(duì)前的基本如此互例,合隊(duì)之后也再加了一部分特征,主體還是大佬的╮(╯
╰)╭筝闹,等決賽媳叨?再說(shuō)吧、

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末关顷,一起剝皮案震驚了整個(gè)濱河市糊秆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌议双,老刑警劉巖扩然,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異聋伦,居然都是意外死亡夫偶,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)觉增,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)兵拢,“玉大人,你說(shuō)我怎么就攤上這事逾礁∷盗澹” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵嘹履,是天一觀的道長(zhǎng)腻扇。 經(jīng)常有香客問(wèn)我,道長(zhǎng)砾嫉,這世上最難降的妖魔是什么幼苛? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮焕刮,結(jié)果婚禮上舶沿,老公的妹妹穿的比我還像新娘墙杯。我一直安慰自己,他們只是感情好括荡,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布高镐。 她就那樣靜靜地躺著,像睡著了一般畸冲。 火紅的嫁衣襯著肌膚如雪嫉髓。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天邑闲,我揣著相機(jī)與錄音岩喷,去河邊找鬼。 笑死监憎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的婶溯。 我是一名探鬼主播鲸阔,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼迄委!你這毒婦竟也來(lái)了褐筛?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤叙身,失蹤者是張志新(化名)和其女友劉穎渔扎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體信轿,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晃痴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了财忽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片倘核。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖即彪,靈堂內(nèi)的尸體忽然破棺而出紧唱,到底是詐尸還是另有隱情,我是刑警寧澤隶校,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布漏益,位于F島的核電站,受9級(jí)特大地震影響深胳,放射性物質(zhì)發(fā)生泄漏绰疤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一舞终、第九天 我趴在偏房一處隱蔽的房頂上張望峦睡。 院中可真熱鬧翎苫,春花似錦、人聲如沸榨了。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)龙屉。三九已至呐粘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間转捕,已是汗流浹背作岖。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留五芝,地道東北人痘儡。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像枢步,于是被迫代替她去往敵國(guó)和親沉删。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359