競(jìng)賽首頁(yè)
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231620
本文地址
http://www.reibang.com/p/a9c8fc185cb6
復(fù)賽的全隊(duì)躺尸狀態(tài)沒(méi)人整理抄肖、、窖杀、這里主要是初賽部分,個(gè)人前期的一些思路漓摩,且做備份。陈瘦。。有空再完善吧。痊项。锅风。有空吧。鞍泉。皱埠。
1.題目概述
場(chǎng)景目的:商場(chǎng)+支付寶口碑,當(dāng)用戶在商場(chǎng)逛街時(shí)咖驮,定位其所在店鋪边器,在其付費(fèi)前推送相關(guān)優(yōu)惠券,使其享受優(yōu)惠/促進(jìn)消費(fèi)托修,提高用戶體驗(yàn)忘巧。
定位根據(jù):當(dāng)用戶使用支付寶付費(fèi)時(shí),后臺(tái)采集了此時(shí)手機(jī)的狀態(tài)(用戶ID睦刃、時(shí)間砚嘴、GPS定位、wifi信號(hào)強(qiáng)度及連接)涩拙、被掃碼的商店的信息(商店ID际长、商場(chǎng)ID、商店消費(fèi)水平兴泥、商店位置)工育。這樣有了當(dāng)手機(jī)此狀態(tài)下,在此商店附近
2.分析與思考
1.問(wèn)題的目標(biāo)是定位到商店搓彻,所能使用的信息是在店時(shí)的wifi狀態(tài)如绸、GPS狀態(tài),及其他的一些人好唯、店竭沫、時(shí)間信息。
2.GPS信號(hào)存在異常值骑篙,不同商店的GPS重疊嚴(yán)重蜕提,但除異常值外也可以呈現(xiàn)出聚集狀態(tài),有些商場(chǎng)甚至可以呈現(xiàn)清晰輪廓靶端。
3.WIFI信號(hào)最為關(guān)鍵谎势,但wifi信號(hào)也常常不穩(wěn)定,如:(wifi搜索缺失)同一個(gè)商店并不總能搜到那個(gè)wifi杨名,即使是個(gè)很強(qiáng)的wifi或連接過(guò)的wifi脏榆;(wifi強(qiáng)度穩(wěn)定性)同一個(gè)商店對(duì)同一個(gè)wifi的強(qiáng)度浮動(dòng)。但相對(duì)表達(dá)來(lái)說(shuō)wifi最強(qiáng)勢(shì)台谍。
4.WIFI信息的提取可以考慮兩個(gè)方面须喂,一個(gè)是wifi序列的方面,即檢索到的wifi都納入特征提取坞生;一個(gè)是特征wifi方面仔役,如top1的wifi、最穩(wěn)定的wifi等是己。
5.GPS信息的提取以KNN聚類(lèi)又兵、距離的計(jì)算為主。
6.時(shí)間信息的提取以熱度卒废、周期為主沛厨。
3.多分類(lèi)
傳統(tǒng)的wifi室內(nèi)定位方法有三角定位、wifi指紋識(shí)別等摔认。適合本題即為wifi指紋識(shí)別法(http://www.cnblogs.com/rubbninja/p/6120964.html)逆皮,即多分類(lèi)的方法,但其通常采用KNN模型及其變形级野,且每個(gè)定位點(diǎn)綜合為一套wifi指紋页屠,與傳統(tǒng)指紋識(shí)別不同的是,本例中手機(jī)采集wifi信息時(shí)蓖柔,手機(jī)信號(hào)不一致辰企、wifi類(lèi)型不一致、人所在的位置范圍也不定點(diǎn)况鸣。
所以牢贸,在本題中,采用麥芽的香氣開(kāi)源的方案即可镐捧,一方面采用全部數(shù)據(jù)可以解決每個(gè)定位點(diǎn)(shop)一套指紋的不準(zhǔn)確潜索,另一方面采用xgb等模型比KNN好太多、懂酱、竹习、
4.二分類(lèi)
二分類(lèi)的選擇理由在于,多分類(lèi)的缺點(diǎn):一個(gè)商場(chǎng)就要訓(xùn)練一個(gè)模型列牺;shop被作為標(biāo)簽后整陌,無(wú)法對(duì)shop進(jìn)行信息的挖掘....(應(yīng)該還有,反正就這么說(shuō)服自己了瞎领、泌辫、)但多分類(lèi)融合二分類(lèi)效果奇佳
二分類(lèi)的構(gòu)建思路如圖,以row_id和shop_id為key九默,進(jìn)行特征工程模型訓(xùn)練預(yù)測(cè)后得到了row-shop的概率震放,取row中概率最高的作為預(yù)測(cè)的shop。
在構(gòu)建負(fù)樣本是驼修,全集則是商場(chǎng)其他商店為負(fù)樣本殿遂,通常采用一定的規(guī)則(日后可做特征)縮減負(fù)樣本比例诈铛,提高正樣本的覆蓋率。我選擇的是對(duì)訓(xùn)練集和測(cè)試集保持一致的方法作候選集墨礁。
特征的構(gòu)建也是從以上分析中的角度進(jìn)行思考癌瘾,常規(guī)的計(jì)數(shù)、比例饵溅、排序、組合以及二分類(lèi)特有的組內(nèi)妇萄。
據(jù)drop-out所開(kāi)源蜕企,采用規(guī)則后對(duì)負(fù)樣本進(jìn)行隨機(jī)采樣,保留所有正樣本也可達(dá)到同樣效果且數(shù)據(jù)量更小
5.候選與特征
5.1 候選
wifi 計(jì)數(shù)top歷史冠句、GeoKNN聚類(lèi)轻掩、類(lèi)LCS規(guī)則(其中一條歸一化用了測(cè)試集數(shù)據(jù),復(fù)賽廢除了)
5.2 特征
1.第N強(qiáng)wifi作為【前M強(qiáng)wifi】與店鋪交互次數(shù)與平均強(qiáng)度和排序
2.連接wifi與店鋪的【連接】/【交互】次數(shù)與平均強(qiáng)度
3.類(lèi)LCS系列懦底,體現(xiàn)wifi序列信息唇牧,主要是對(duì)相關(guān)特征做加權(quán)來(lái)綜合,如wifi強(qiáng)度rank聚唐,歷史bs強(qiáng)度丐重、計(jì)數(shù)、rank杆查,強(qiáng)度差及歸一化等
4.熱度扮惦,主要是hour-shop/cate
5.組內(nèi)比例【組內(nèi)的作用是平衡不同row之間的差異】
6.強(qiáng)度差 強(qiáng)度差的絕對(duì)值均值方差等
7.位置相關(guān)
6.可視化
用QGIS做的可視化,其實(shí)并沒(méi)有從中看出什么厲害的東西亲桦,加深理解吧就算是崖蜜。
黑色的是商店坐標(biāo),可見(jiàn)其偏的很任性客峭。豫领。。同色的是同一個(gè)shop的舔琅。此商場(chǎng)屬于輪廓很清晰的了等恐。
我感覺(jué)像“商業(yè)街”,不過(guò)也有大佬說(shuō)就是商場(chǎng)內(nèi)搏明,還是傻傻分不清楚鼠锈。
http://www.reibang.com/p/25ae219369b8
7.體會(huì)
1.從信息量的角度思考——什么特征代表的是哪方面的信息;還有什么方面的信息沒(méi)提出來(lái)星著;已經(jīng)提的信息是否還有改進(jìn)空間购笆;
2.從業(yè)務(wù)出發(fā)思考——這個(gè)業(yè)務(wù)需要哪方面信息來(lái)表達(dá),這個(gè)信息體現(xiàn)為特征應(yīng)該怎么提取虚循。
3.保持交流很重要同欠,否則會(huì)迷失在自己的局限內(nèi)样傍。。
4.有自己作品后再找組隊(duì)铺遂,八字沒(méi)一撇在群里瞎喊是沒(méi)有未來(lái)的衫哥。。襟锐。
5.團(tuán)隊(duì)中保持自己的獨(dú)立性撤逢,或者獨(dú)立開(kāi)發(fā),或者合理分工...要么會(huì)做得很迷==
6.路漫漫其修遠(yuǎn)兮粮坞。蚊荣。。
7.以上莫杈、初賽合隊(duì)前的基本如此互例,合隊(duì)之后也再加了一部分特征,主體還是大佬的╮(╯╰)╭筝闹,等決賽媳叨?再說(shuō)吧、