這個(gè)是去年夏天開始參與的一個(gè)任務(wù)贸呢,斷斷續(xù)續(xù)到年前差不多維護(hù)的比較完善了。
任務(wù)目的是愉耙,要做購車人群的目標(biāo)人群定向的時(shí)候贮尉,怎么從為某一類型行為、或者某一個(gè)垂直細(xì)分市場朴沿,基于公開的數(shù)據(jù)猜谚,維護(hù)一個(gè)汽車關(guān)注行為特征的配置庫。
比如赌渣,我們想比較一下“傾向買10萬左右整車進(jìn)口的潛客”和“傾向買10萬左右國產(chǎn)合資品牌車”的潛客魏铅,他們的選車考量因素和購車習(xí)慣有什么不同嗎?
假設(shè)我們可以有這些人群的上網(wǎng)行為信息坚芜,我們可以知道哪些cookie在什么時(shí)候览芳,訪問的完整的URL,這些網(wǎng)站也包括垂直汽車媒體和門戶的汽車頻道鸿竖。
那么通過正則表達(dá)式沧竟,我們可以識(shí)別URL所代表的行為類型,可以是缚忧,比如:a0 =品牌\工廠\車系\車型信息列表頁悟泵,a1 = 查看品牌/工廠信息,a2 = 查看車系信息闪水,a3 = 查看車型信息糕非,a4 = 查看車型價(jià)格,a5 = 查看車型口碑,b0 = 車型圖片列表頁朽肥,c2 = 查看測評(píng)文章禁筏,e2 = 查看試駕活動(dòng),e3 = 團(tuán)購衡招,f0 = 對(duì)比車型篱昔,g0 = 二手車,m2 = 申請(qǐng)車貸始腾,等等旱爆。
也可以從URL行為中解析出,車型信息窘茁、車系信息、經(jīng)銷商ID等信息脆烟。
這樣如果我們能把一個(gè)ID在汽車垂直媒體和門戶汽車頻道的所有的URL都解析出來山林,那么對(duì)這個(gè)人的購車階段和購車意向無疑會(huì)有比較好的了解。
于是邢羔,這就是我前面提到的這個(gè)任務(wù)驼抹,就是,我們就需要一個(gè)完整的信息庫拜鹤,不僅有完整的車系和車型信息框冀,還要有商品標(biāo)簽。
問題來了敏簿,我怎么能方便的知道明也,汽車之家對(duì)于CS35的車系的代碼比如123,和愛卡汽車隊(duì)與CS35的代碼‘a(chǎn)bc456’惯裕,其實(shí)是同一個(gè)車系呢温数?車型也類似。
比如主流的汽車媒體蜻势,汽車之家撑刺,愛卡,易車握玛,騰訊汽車頻道够傍,還有很多的汽車團(tuán)購、汽車資訊網(wǎng)站挠铲。
所以我們需要一個(gè)數(shù)據(jù)庫冕屯,里面有各個(gè)車型、車系市殷、品牌愕撰、廠商,在各個(gè)汽車媒體站的ID,對(duì)應(yīng)到自己的統(tǒng)一ID上搞挣。這樣带迟,無論我得到這些汽車媒體站的任何的URL,我都能解析出來囱桨,實(shí)際這個(gè)行為對(duì)應(yīng)的是哪個(gè)車系和車型仓犬。
所以,我們做的事情就是:
1)爬取這些媒體站的高頻URL舍肠,全站的全部URL都爬下來也不可取,可以把主要頻道的URL爬下來翠语。
2)用正則表達(dá)式解析出URL中的業(yè)務(wù)參數(shù),比如肌括,車系,品牌谍夭,車廠黑滴,車型,等等紧索。
有了車系和車型后,元數(shù)據(jù)的記錄就會(huì)有珠漂,國別,價(jià)格甘磨,配置橡羞,口碑,等信息济舆。
3)設(shè)計(jì)自己的元數(shù)據(jù)體系卿泽,比如滋觉,第一級(jí)签夭,廠商和品牌有交叉關(guān)系椎侠,比如,長安馬自達(dá)我纪、一汽馬自達(dá)丐吓,等等趟据。
下面是車系券犁,再下面是經(jīng)銷商汹碱。經(jīng)銷商和車系車型又是網(wǎng)狀關(guān)系。
4)把爬取到的各站參數(shù)稚新,統(tǒng)一到自己設(shè)計(jì)的車系、車型參數(shù)上來褂删。
5)維護(hù)潛客ID冲茸,和行為參數(shù)之間的對(duì)應(yīng)關(guān)系笤妙。
6)做一些應(yīng)用BI噪裕,比如股毫,查看和某車系的潛客交叉最多的車系是哪個(gè)車系,競爭交叉最嚴(yán)重的品牌是誰铃诬,在同價(jià)位競爭的SUV是誰、B級(jí)轎車是誰兵志,等等。
又比如想罕,某個(gè)車系的潛客霉涨,在哪個(gè)門戶網(wǎng)站的汽車頻道或者垂直媒體上占比最多?這些信息笙瑟,對(duì)于營銷廣告投放都很有意義。
這樣往枷,通過常規(guī)的維護(hù)凄杯,以后,當(dāng)需要知道某個(gè)車系的潛客秉宿,某個(gè)價(jià)位的潛客行為,某車長某關(guān)鍵配置的國產(chǎn)/進(jìn)口車的人群畫像蘸鲸,的時(shí)候,就可以從庫里得到一個(gè)初步的數(shù)據(jù)素材了膝舅。
前段時(shí)間,我花時(shí)間比較多的仍稀,在第4)步上埂息。
關(guān)于多站的車型車系ID技潘,怎么打通千康,也有不少的坑。剛開始拾弃,想車系的數(shù)量級(jí)大概在2000左右,而車型的數(shù)量級(jí)在3萬左右奔坟,明顯是車系更容易對(duì)應(yīng)。
但是咳秉,經(jīng)過一研究發(fā)現(xiàn),其實(shí)除了車型是汽車廠定義好的之外澜建,車系其實(shí)各個(gè)站點(diǎn)的劃分方法是可以不同的蝌以,比如霎奢,朗逸饼灿,可以有經(jīng)典朗逸,可以有新朗逸晤硕,或者朗逸二代,三代舞箍;有的站點(diǎn),都算一個(gè)車系叫朗逸疏橄,有的卻劃分成好幾個(gè)細(xì)分的車系。所以晃酒,看一個(gè)新朗逸的人,不一定就是關(guān)注整個(gè)朗逸贝次。
所以彰导,想了想,還是先匹配車型比較合理位谋。因?yàn)橐粋€(gè)車型只可能屬于一個(gè)唯一的車系,車型匹配上之后盖腿,再根據(jù)車型的匹配损同,定義自己的車系庫的車系代碼,自己的車系代碼和幾個(gè)汽車資訊站的車系的代碼的關(guān)系也就確定了膏燃。
車型的比對(duì)也不容易何什,各個(gè)站的車型的個(gè)數(shù)都是上萬,而且車型的名稱处渣,配置信息常常有錯(cuò)誤,有的站連廠商指導(dǎo)價(jià)罐栈、手動(dòng)還是自動(dòng),這樣的信息都會(huì)維護(hù)錯(cuò)琅翻,肉眼看都不知道哪個(gè)車型應(yīng)該對(duì)哪個(gè)車型,有程序自動(dòng)匹配方椎,也只能盡量匹配了。
還要考慮每個(gè)月都有會(huì)有的新車系琳疏、新車型,怎么持續(xù)的加入到自己維護(hù)的信息庫里空盼,也是需要考慮的胸墙。
試了幾種方法:
1)根據(jù)名稱、價(jià)位迟隅、車長、軸距智袭,等參數(shù)給他們的相似度打分,由此判斷汽車之家的車型代碼567和愛卡汽車的車型代碼345是不是同一個(gè)車型校哎。
2)后來發(fā)現(xiàn)python有個(gè)函數(shù)fuzzywuzzy瞳步,直接可以用來判斷兩個(gè)字符串的相似度。
3)最后還有一個(gè)方法可以檢驗(yàn)单起,使用爬蟲两嘴,批量的用車系名稱,在汽車媒體和門戶汽車頻道里搜索植兰,這樣批量的得到一個(gè)車系名稱在網(wǎng)站對(duì)應(yīng)的參數(shù)ID制肮。比如碳胳,用‘新朗逸’當(dāng)搜索關(guān)鍵字勇蝙,在汽車媒體和門戶汽車頻道里搜索挨约,出來的ID藕帜,就是新朗逸的車系代碼惜傲。不過這個(gè)方法還要注意:有的網(wǎng)站搜索引擎不是精準(zhǔn)匹配,即使沒找到這個(gè)車系时甚,也會(huì)返回一個(gè)推薦車系。
最后荒适,再發(fā)動(dòng)大家人工看一遍車系开镣,大概2000多車系,一個(gè)小時(shí)也就掃描完了邪财。總比人工查找要靠譜點(diǎn)糠馆。
這也是剛開始沒有經(jīng)驗(yàn),在積累元數(shù)據(jù)庫的時(shí)候遇到的一些問題又碌。其實(shí)绊袋,現(xiàn)在想想,完全可以去‘乘聯(lián)會(huì)’或者什么汽車行業(yè)協(xié)會(huì)里找到更多的借鑒的行業(yè)元數(shù)據(jù)庫癌别。