[kaggle]DC比賽進程4

本次提交的個人觀點:

  1. 對GIS的依賴程度 ,是否要接入postgresql進行GIS方面的計算(之前有一點點研究览效,并不深入)照弥;
  1. 關(guān)鍵的特征應(yīng)該是trajectories軌跡方面的特征害幅。在初期可以采用類似張洋在翻譯中提到的geohash的方法(沒找到和R相關(guān)的漓踢,倒是有個python包增蹭,誰幫忙研究下):類似的思想就是將地圖切分成大量的小方塊(高級一點會切成六邊形学少,小方塊的案例有:Uber和神州專車,沒找到技術(shù)鏈接將地圖切塊鳞疲,進行用車預(yù)測罪郊,從而動態(tài)調(diào)價;六邊形的好像是高德尚洽,做地圖上某個六邊形區(qū)域點擊悔橄,可以看到半小時、一小時腺毫、兩小時的到達區(qū)域范圍)切成塊之后進行編碼癣疟,這樣可以將任意一條行程轉(zhuǎn)化成為軌跡覆蓋區(qū)域編碼的序列,或者整個編碼區(qū)域的稀疏矩陣潮酒。再簡單點睛挚,之間使用起止點的編碼作為特征進行預(yù)測也是可以接受的。
  2. 在上一步的基礎(chǔ)上急黎,可以進行一些OD方面提取特征竞川,baidu出租車OD分析baidu出租車運營平臺

一些還未想好是否能合理使用的點:

  • 是否應(yīng)該將行程切分叁熔,區(qū)分載客和/空車的行程(需要進行驗證)委乌,在后期用來訓(xùn)練的數(shù)據(jù)是根據(jù)某個特征(載客/空車)切分的行程,還是整個行程中的每兩個點之間的行程都作為訓(xùn)練數(shù)據(jù)荣回?
    比如說一段行程在經(jīng)過geohash標號后遭贸, A →B→C→C→D→E,到達每個標號的時間知道心软;
    訓(xùn)練的輸入會是其中任意一個子集么壕吹,如A →B; A →B→C
  • (這條肯定用)高德的API删铃,企業(yè)用戶耳贬,具體可能會發(fā)生關(guān)聯(lián)的如:路徑規(guī)劃API;基于API的相關(guān)屬性構(gòu)建特征值猎唁;
  • 駕駛員駕駛行為屬性(由于數(shù)據(jù)間隔30s咒劲,所以很難學(xué)習(xí)到駕駛員的駕駛行為傾向)
  • 用戶畫像方面:駕駛員的生活習(xí)慣,貌似也沒什么建模必要;
  • H2O的使用腐魂;

以下是我的方案:

  1. 在將原始數(shù)據(jù)計算平均車速度后帐偎,驗證一些典型的特征驗證:
  • 城市不同時段的車流量;
  • 不同日期的車流量變化(節(jié)假日/非節(jié)假日蛔屹,需要考察程度在該段時間內(nèi)會影響OD的重大事件)
  • 每個人的平均速度是否有不同(個人駕駛傾向)
  • 載客與非載客對時間的影響削樊,理論上taxi在乘客上車后,應(yīng)該直接確定目的地兔毒,并且不會在中間因為非交通原因等待漫贞。
  • 出駐車的換班時段是否固定,如不固定是否有必要作為特征
  1. 對于軌跡的信息提取育叁,傾向于使用geohash的方法迅脐,編碼地圖上的每一個小塊。(能想到的另一種方法是GIS數(shù)據(jù)庫擂红,postgresql的使用)仪际,基于編碼提取特征围小,將GIS特征變?yōu)閿?shù)字特征作為輸入?yún)?shù)昵骤;
    其他的特征還有:
  • 行程起止點GPS距離;
  • 行程的GPS點個數(shù)肯适;
  • 行程所處時間段变秦、日期;
  • 行程是否包含了預(yù)設(shè)的經(jīng)常擁堵路段框舔;
  • 駕駛員方面的因素蹦玫;
  • 高德提供的特征:如導(dǎo)航時長
  • 未完待續(xù)。刘绣。樱溉。。纬凤。福贞。
  1. 模型,這部分現(xiàn)在談好像紙上談兵停士,但是否使用一些機器學(xué)習(xí)的平臺可以提前考慮下挖帘,比如H2O;
  2. 測試,
  3. 提交測試結(jié)果恋技,可以查看下被用來預(yù)測數(shù)據(jù)的樣式拇舀;目前最高分0.22。

盡量能在月底提交一次結(jié)果吧蜻底,通過與結(jié)果的比對骄崩,不斷迭代更新算法吧。

任務(wù) 完成日期 任務(wù)分發(fā)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市刁赖,隨后出現(xiàn)的幾起案子搁痛,更是在濱河造成了極大的恐慌,老刑警劉巖宇弛,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸡典,死亡現(xiàn)場離奇詭異,居然都是意外死亡枪芒,警方通過查閱死者的電腦和手機彻况,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舅踪,“玉大人纽甘,你說我怎么就攤上這事〕槁担” “怎么了悍赢?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長货徙。 經(jīng)常有香客問我左权,道長,這世上最難降的妖魔是什么痴颊? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任赏迟,我火速辦了婚禮,結(jié)果婚禮上蠢棱,老公的妹妹穿的比我還像新娘锌杀。我一直安慰自己,他們只是感情好泻仙,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布糕再。 她就那樣靜靜地躺著,像睡著了一般玉转。 火紅的嫁衣襯著肌膚如雪突想。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天冤吨,我揣著相機與錄音蒿柳,去河邊找鬼。 笑死漩蟆,一個胖子當著我的面吹牛垒探,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播怠李,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼圾叼,長吁一口氣:“原來是場噩夢啊……” “哼蛤克!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起夷蚊,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤构挤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后惕鼓,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筋现,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年箱歧,在試婚紗的時候發(fā)現(xiàn)自己被綠了矾飞。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡呀邢,死狀恐怖洒沦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情价淌,我是刑警寧澤申眼,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站蝉衣,受9級特大地震影響括尸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜买乃,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一姻氨、第九天 我趴在偏房一處隱蔽的房頂上張望钓辆。 院中可真熱鬧剪验,春花似錦、人聲如沸前联。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽似嗤。三九已至啸臀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間烁落,已是汗流浹背乘粒。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留伤塌,地道東北人灯萍。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像每聪,于是被迫代替她去往敵國和親旦棉。 傳聞我的和親對象是個殘疾皇子齿风,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容