【干貨】基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷方案研究與應(yīng)用 https://mp.weixin.qq.com/s?src=3×tamp=1500171470&ver=1&signature=0XZ2ZR41fp7FU2HCgoQxiKkAX6DH5rg7qt7QYgBaa0s33k6OA7U7GS66w4zRFTqY6s-TDJ5b9wXJkDZ-odlzTkk30Mvqm6-NN3z6zLIxz8jkRC8yeYOKNQfShfNhmgu3W38GnpwjtnXg21fI*HaOAjX3tEgAUv-duCpxT0ba8=
- Github項(xiàng)目: awesome-coder-resources:編程/學(xué)習(xí)/閱讀資源---開源項(xiàng)目,面試題,網(wǎng)站,書,博客,教程等等...歡迎Star,歡迎圍觀...
CRISP-DM(cross-industry standard process for data mining蛋逾,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述麸折,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示叼架。
匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過程锨阿。
摘要:分析了大數(shù)據(jù)技術(shù)在IPTV精準(zhǔn)營(yíng)銷中的應(yīng)用又固,因地制宜地制定了“Hadoop大數(shù)據(jù)平臺(tái)+爬蟲技術(shù)+建模工具”的框架方案何荚,并對(duì)方案中的關(guān)鍵點(diǎn)和整個(gè)數(shù)據(jù)分析建模過程在現(xiàn)網(wǎng)中的應(yīng)用進(jìn)行了深入分析毯盈。在IPTV精準(zhǔn)營(yíng)銷中取得了較好的效果缔恳,具有較高的應(yīng)用價(jià)值宝剖。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);數(shù)據(jù)建模;IPTV;精準(zhǔn)營(yíng)銷
1 引言
隨著2015年國(guó)務(wù)院“65號(hào)文”全面開放運(yùn)營(yíng)商進(jìn)入IPTV領(lǐng)域和運(yùn)營(yíng)商網(wǎng)絡(luò)升級(jí),IPTV迎來一個(gè)發(fā)展良機(jī)褐耳。來自流媒體網(wǎng)的數(shù)據(jù)诈闺,2016年1-6月,IPTV用戶凈增1991.7萬戶铃芦,總數(shù)達(dá)到6581.2萬戶雅镊。
然而,在運(yùn)營(yíng)商業(yè)務(wù)體系中刃滓,IPTV主要起到寬帶業(yè)務(wù)填充和增加用戶黏性的作用仁烹,直接收入貢獻(xiàn)不突出。IPTV互聯(lián)網(wǎng)特性提供了點(diǎn)播等不同于傳統(tǒng)電視的業(yè)務(wù)模式咧虎,為IPTV業(yè)務(wù)增收另辟蹊徑卓缰。
同時(shí),隨著視頻業(yè)務(wù)在網(wǎng)絡(luò)流量中比重日益增加以及政策放開帶來的競(jìng)爭(zhēng)砰诵,發(fā)展新用戶也是IPTV業(yè)務(wù)當(dāng)前的發(fā)展重點(diǎn)征唬。
在當(dāng)前IPTV業(yè)務(wù)營(yíng)銷中,最大問題是準(zhǔn)確定位“向誰”營(yíng)銷“什么業(yè)務(wù)”茁彭,傳統(tǒng)方式指向性不夠总寒,導(dǎo)致營(yíng)銷效率低下,且容易引起用戶反感理肺。另一方面摄闸,電信運(yùn)營(yíng)商擁有豐富的用戶數(shù)據(jù)善镰,從數(shù)據(jù)中掘金,是當(dāng)前大勢(shì)所趨∧暾恚現(xiàn)在數(shù)據(jù)具有體量大炫欺、類型多樣、速度快熏兄、價(jià)值密度低4個(gè)特征品洛,為適應(yīng)新形式下的數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生霍弹。
2 需求分析
在IPTV業(yè)務(wù)實(shí)際運(yùn)營(yíng)中毫别,發(fā)現(xiàn)存在以下問題娃弓。
(1)訂購用戶少
以某運(yùn)營(yíng)商省公司2016年5月數(shù)據(jù)為例典格,增值業(yè)務(wù)用戶數(shù)僅占全部IPTV用戶數(shù)的10%左右,增值業(yè)務(wù)收入占IPTV業(yè)務(wù)收入的1/4台丛。
(2)基于用戶惰性行為的分析
增值業(yè)務(wù)訂購有點(diǎn)播耍缴、包月、包年等不同時(shí)效的產(chǎn)品包挽霉,從用戶行為看防嗡,少有用戶不停點(diǎn)播不同內(nèi)容的,應(yīng)該更多地發(fā)展包年用戶侠坎。
(3)不同內(nèi)容產(chǎn)品包的用戶差距明顯
以某運(yùn)營(yíng)商省公司的數(shù)據(jù)為例蚁趁,訂購最多的“影院高清包年”用戶是“英超高清包年”的上百倍。
(4)高清拉動(dòng)
隨著高清電視的普及和帶寬的提升实胸,用戶對(duì)高清視頻需求增長(zhǎng)明顯他嫡。
(5)積分訂購和賬單訂購用戶退訂行為差距大
積分訂購用戶在業(yè)務(wù)到期后退訂明顯,賬單訂購用戶退訂相對(duì)平緩庐完。
針對(duì)以上分析钢属,發(fā)展增值業(yè)務(wù)用戶需要考慮:用戶的視頻需求,包括觀看時(shí)間门躯、內(nèi)容淆党、是否高清敏感等;用戶的支付習(xí)慣,包括消費(fèi)敏感度讶凉、積分支付行為等染乌。對(duì)于發(fā)展新用戶,首先在寬帶用戶中發(fā)展懂讯,由于目標(biāo)用戶還沒有使用IPTV荷憋,應(yīng)基于運(yùn)營(yíng)商ODS(operating data store,運(yùn)營(yíng)數(shù)據(jù)倉儲(chǔ))數(shù)據(jù)和網(wǎng)絡(luò)DPI(deep packet inspection域醇,深度分組檢測(cè))數(shù)據(jù)對(duì)用戶進(jìn)行分析台谊,向有視頻傾向的寬帶用戶推薦IPTV業(yè)務(wù)蓉媳,同時(shí)推薦用戶感興趣的增值業(yè)務(wù)。
3 方案框架
3.1 基于Hadoop大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)匯聚
本文方案用到的數(shù)據(jù)比較復(fù)雜:數(shù)據(jù)體量大锅铅,僅IPTV業(yè)務(wù)數(shù)據(jù)就包括十幾個(gè)表酪呻,每天大于5 GB的裸數(shù)據(jù)(某運(yùn)營(yíng)商省公司IPTV業(yè)務(wù)數(shù)據(jù)),而DPI數(shù)據(jù)更是體量大盐须、價(jià)值密度低;數(shù)據(jù)類型多玩荠,包括ODS傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)、IPTV日志類業(yè)務(wù)數(shù)據(jù)贼邓、DPI數(shù)據(jù)和網(wǎng)上爬取的數(shù)據(jù)等;不同類型和來源的數(shù)據(jù)需要進(jìn)行用戶和格式的統(tǒng)一;涉及的數(shù)據(jù)大多來自現(xiàn)網(wǎng)數(shù)據(jù)阶冈,包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息等塑径,為避免影響現(xiàn)網(wǎng)業(yè)務(wù)女坑,有必要新建數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)保存處理。
采用Hadoop技術(shù)搭建大數(shù)據(jù)平臺(tái)统舀,集群規(guī)模為“2+16+1”(名稱節(jié)點(diǎn)+數(shù)據(jù)節(jié)點(diǎn)+接口機(jī))匆骗,50 TB存儲(chǔ)空間(能滿足同時(shí)開展3個(gè)省公司的IPTV大數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)),部署了Sqoop誉简、Flume等數(shù)據(jù)同步工具碉就,Big、Hive闷串、Impala瓮钥、Spark等數(shù)據(jù)查詢分析工具。
3.2 基于CRISP-DM的數(shù)據(jù)挖掘流程
CRISP-DM(cross-industry standard process for data mining烹吵,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述碉熄,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示年叮。
圖1 CRISP-DM模型處理流程示意
CRISP-DM模型流程包括圖1中的6個(gè)步驟[1]具被,說明如下。
(1)商業(yè)問題定義
主要從項(xiàng)目目標(biāo)和業(yè)務(wù)角度理解需求只损,并制定初步計(jì)劃;為發(fā)展IPTV增值業(yè)務(wù)和IPTV新用戶提供數(shù)據(jù)挖掘服務(wù)一姿,精準(zhǔn)定位需求用戶,其中發(fā)展IPTV增值業(yè)務(wù)包括發(fā)展增值業(yè)務(wù)新用戶跃惫、增值業(yè)務(wù)升級(jí)(點(diǎn)播/包月轉(zhuǎn)包年)叮叹、業(yè)務(wù)升級(jí)(標(biāo)清轉(zhuǎn)高清/4K(即4K分辨率,ultra HD標(biāo)準(zhǔn))爆存,寬帶升級(jí))等;發(fā)展新用戶主要在寬帶用戶中發(fā)展IPTV用戶蛉顽。
(2)數(shù)據(jù)理解
從數(shù)據(jù)收集開始進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部屬性;需要的數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)先较、用戶電信畫像數(shù)據(jù)(用戶套餐信息携冤、家庭成員結(jié)構(gòu)悼粮、支付習(xí)慣等)、用戶視頻畫像數(shù)據(jù)等曾棕。
(3)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)扣猫。基于業(yè)務(wù)目標(biāo)翘地,對(duì)匯集的數(shù)據(jù)進(jìn)行分析申尤,縮小數(shù)據(jù)范圍,并對(duì)不同來源數(shù)據(jù)進(jìn)行對(duì)接統(tǒng)一;Hive提供的Hive SQL非常適合熟悉SQL語言的人使用衙耕,本項(xiàng)目使用Hive的UDF(user defined function昧穿,用戶定義函數(shù))進(jìn)行數(shù)據(jù)提取,為數(shù)據(jù)建模提供寬表數(shù)據(jù)橙喘。
(4)建模
對(duì)數(shù)據(jù)進(jìn)行建模分析;建氖蓖遥可以使用R語言、Python言語渴杆、Mahout編程實(shí)現(xiàn)寥枝,但對(duì)實(shí)現(xiàn)者要求高宪塔,實(shí)現(xiàn)周期長(zhǎng)磁奖,管理復(fù)雜;數(shù)據(jù)探索結(jié)果顯示,經(jīng)過數(shù)據(jù)分析提取某筐,最終用于數(shù)據(jù)挖掘的數(shù)據(jù)量并不多(以某運(yùn)營(yíng)商省公司的“包月轉(zhuǎn)包年”模型為例比搭,經(jīng)過分析后獲取的寬表數(shù)據(jù)每個(gè)月數(shù)據(jù)量在50~70 MB),這非常適合使用成熟的建模工具進(jìn)行處理南誊,本文采用支持CRISP-DM模型的現(xiàn)成建模工具身诺。
(5)評(píng)估
檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo);對(duì)建模的算法抄囚、效果進(jìn)行分析比較霉赡,并基于測(cè)試分區(qū)進(jìn)行檢查。
(6)部署
將模型獲得的知識(shí)進(jìn)行應(yīng)用;模型導(dǎo)出營(yíng)銷用戶清單及對(duì)應(yīng)的推薦業(yè)務(wù)幔托,營(yíng)銷部門根據(jù)該清單進(jìn)行營(yíng)銷穴亏,并反饋營(yíng)銷效果。
3.3 總體框架方案
基于上述分析重挑,框架方案可如圖2所示嗓化,“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”基于Hadoop技術(shù)搭建,匯聚了數(shù)據(jù)分析所需的數(shù)據(jù)谬哀,同時(shí)部署了爬蟲程序用于爬取視頻相關(guān)數(shù)據(jù)刺覆,構(gòu)建用戶視頻畫像(詳見第4.2節(jié)),還有數(shù)據(jù)的預(yù)處理分析也在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”上進(jìn)行史煎,經(jīng)過處理向建模工具輸出寬表數(shù)據(jù);建模工具實(shí)現(xiàn)數(shù)據(jù)的建模分析谦屑,向營(yíng)銷部門輸出營(yíng)銷用戶清單驳糯。營(yíng)銷由專門的營(yíng)銷部門實(shí)現(xiàn),是方案成果的使用部門和價(jià)值體現(xiàn)氢橙,同時(shí)還需要根據(jù)營(yíng)銷結(jié)果進(jìn)行數(shù)據(jù)分析和建模的調(diào)整结窘。
4 數(shù)據(jù)匯聚和預(yù)處理
4.1 運(yùn)營(yíng)商數(shù)據(jù)匯聚
本文用到的運(yùn)營(yíng)商數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息充蓝、家庭標(biāo)簽隧枫、支付標(biāo)簽、ODS數(shù)據(jù)谓苟、DPI數(shù)據(jù)等官脓,處理的方式各不相同:IPTV業(yè)務(wù)數(shù)據(jù)目前沒有匯聚到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),需要與IPTV業(yè)務(wù)平臺(tái)對(duì)接涝焙,定期采集數(shù)據(jù)到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;用戶套餐信息卑笨、家庭標(biāo)簽、支付標(biāo)簽等數(shù)據(jù)從運(yùn)營(yíng)商ODS系統(tǒng)中查詢獲取仑撞,將結(jié)果保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;DPI數(shù)據(jù)已經(jīng)保存到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)赤兴,利用其租戶空間進(jìn)行數(shù)據(jù)初步分析,獲取用戶視屏標(biāo)簽數(shù)據(jù)隧哮,結(jié)果匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”桶良。
4.2 通過數(shù)據(jù)爬取構(gòu)建用戶視頻畫像
數(shù)據(jù)爬取需求主要包括:節(jié)目信息爬取和建立視頻標(biāo)簽的數(shù)據(jù)爬取。
IPTV業(yè)務(wù)平臺(tái)只有節(jié)目的名稱沮翔,沒有視頻節(jié)目標(biāo)簽數(shù)據(jù)陨帆,如節(jié)目分類、主演采蚀、地區(qū)等;需要通過爬蟲爬取節(jié)目信息疲牵,為用戶IPTV播放記錄打上視頻標(biāo)簽。輸入輸出樣例如下:
輸入樣例:00000050000000010000000011024895|愛回家6_26
輸出樣例:00000050000000010000000011024895|愛回家6_26|
標(biāo)題=愛·回家|年份=2012|分類=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區(qū)=香港|導(dǎo)演=徐遇安|類型=劇情/搞笑/時(shí)裝/家庭|編劇=冼翠貞
對(duì)于沒有使用IPTV業(yè)務(wù)的寬帶用戶榆鼠,可通過其DPI數(shù)據(jù)獲取視頻觀看記錄纲爸,構(gòu)建其視頻畫像,雖然運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)已有包括視頻標(biāo)簽的完整標(biāo)簽體系妆够,但指向性不夠识啦,兼顧目標(biāo)和效率,本文選取樂視责静、優(yōu)酷袁滥、愛奇藝等幾個(gè)規(guī)模大、更接近電視屏的視頻網(wǎng)站灾螃,基于用戶對(duì)這些視頻網(wǎng)站的訪問行為構(gòu)建用戶的視頻畫像题翻,為此本文通過爬蟲爬取了明星庫、節(jié)目庫、基于主要視頻網(wǎng)站的視頻分類和標(biāo)簽信息嵌赠,構(gòu)建了用于刻畫用戶畫像的視頻標(biāo)簽系統(tǒng)塑荒。
爬蟲程序基于開源項(xiàng)目Scrapy自主開發(fā),并分布式部署在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”姜挺,爬取的數(shù)據(jù)自動(dòng)保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”齿税。其中爬取的節(jié)目信息直接通過自主開發(fā)的程序?yàn)橛脩鬒PTV觀看行為數(shù)據(jù)打視頻標(biāo)簽;爬取的明星庫、節(jié)目庫炊豪、視頻分類信息構(gòu)建了用戶視頻標(biāo)簽系統(tǒng)凌箕,并運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)租戶空間中對(duì)用戶DPI數(shù)據(jù)打視頻標(biāo)簽,并將最終打上視頻標(biāo)簽的數(shù)據(jù)匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”词渤。
4.3 數(shù)據(jù)預(yù)處理
預(yù)處理包括從用戶維度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一處理牵舱,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)抽取,形成統(tǒng)一的寬表數(shù)據(jù)缺虐,供建模分析芜壁。預(yù)處理體現(xiàn)了建模的人工智慧——需要確定數(shù)據(jù)抽取的范圍、粒度高氮,體現(xiàn)了數(shù)據(jù)挖掘的業(yè)務(wù)邏輯慧妄,其成果將直接影響建模的有效性。具體包括:數(shù)據(jù)的統(tǒng)一剪芍,基于用戶寬帶賬號(hào)塞淹、IPTV賬號(hào)對(duì)應(yīng)的用戶標(biāo)識(shí)進(jìn)行數(shù)據(jù)的統(tǒng)一;數(shù)據(jù)提取,根據(jù)業(yè)務(wù)分析確定業(yè)務(wù)處理邏輯紊浩,并從原始數(shù)據(jù)中提取窖铡、匯總、比較等坊谁,生成最終用于建模的數(shù)據(jù)』“匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過程口芍。
以IPTV包月轉(zhuǎn)包年模型為例,經(jīng)過數(shù)據(jù)分析后形成的寬表數(shù)據(jù)包括以下方面雇卷。
(1)用戶基礎(chǔ)信息
包括用戶寬帶套餐鬓椭、積分?jǐn)?shù)據(jù)、IPTV業(yè)務(wù)狀態(tài)关划、IPTV機(jī)頂盒信息(廠商小染、型號(hào)、清晰度贮折、數(shù)量等)等裤翩,這些信息基本上可以直接通過數(shù)據(jù)抽取得到。
(2)用戶IPTV增值業(yè)務(wù)使用信息
包括按不同支付方式匯總近3年訂購金額调榄、次數(shù)踊赠,在訂產(chǎn)品包個(gè)數(shù)和總金額等;用戶在訂/退訂各年包/半年包匯總數(shù)據(jù);用戶在訂呵扛、退訂的最長(zhǎng)時(shí)間產(chǎn)品包信息;用戶點(diǎn)播的高清/非高清電影、電視劇等不同種類節(jié)目匯總的次數(shù)筐带、天數(shù)今穿、時(shí)長(zhǎng)、節(jié)目數(shù)等;這些數(shù)據(jù)要從匯聚的數(shù)據(jù)經(jīng)過計(jì)算伦籍、匯總得到;用戶觀看直播節(jié)目匯總信息蓝晒。
(3)用戶其他畫像信息
基于用戶住宅區(qū)域、套餐信息和賬單支付形成的用戶支付畫像帖鸦,基于用戶工作日寬帶網(wǎng)絡(luò)拔创、IPTV使用情況,家庭Wi-Fi使用富蓄、網(wǎng)站訪問搜索和購物信息等形成的家庭人口畫像剩燥,這些已有運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)生成,可直接抽取用戶標(biāo)簽數(shù)據(jù)使用立倍。
還有的需要進(jìn)行額外的數(shù)據(jù)比較灭红,如通過比較用戶IPTV清晰度和帶寬信息(加上用戶高清視頻標(biāo)簽),推薦用戶進(jìn)行帶寬升級(jí)口注、IPTV清晰度升級(jí)或兩者均升級(jí)等;這需求比較IPTV標(biāo)清/高清/4K需要的帶寬信息变擒、用戶套餐的帶寬信息、用戶IPTV機(jī)頂盒清晰度信息寝志,定義用戶帶寬和IPTV滿足度的新字段娇斑。
經(jīng)過預(yù)處理的數(shù)據(jù)優(yōu)化了數(shù)據(jù)結(jié)構(gòu),大大降低了數(shù)據(jù)量材部,更易于建模分析毫缆。提交給建模的數(shù)據(jù)包括觀察數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),觀察數(shù)據(jù)用于建模乐导,得到“實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶模型苦丁,然后用這些用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)分析,得出“下月可能實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶清單物臂。
5 建模分析
建模過程輸入寬表數(shù)據(jù)旺拉,輸出營(yíng)銷月用戶清單。整個(gè)分析過程包括:根據(jù)觀察數(shù)據(jù)建立用戶模型;根據(jù)用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行分析棵磷,得出下月營(yíng)銷目標(biāo)用戶蛾狗,并根據(jù)用戶的視頻畫像進(jìn)行聚類,向用戶推薦合適的產(chǎn)品包仪媒。本部分以“包月轉(zhuǎn)包年”模型為例描述建模分析過程沉桌。
5.1 數(shù)據(jù)建模分析
具體的建模分析過程可分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模兩部分。
其中數(shù)據(jù)預(yù)處理主要是根據(jù)建模要求,對(duì)寬表數(shù)據(jù)做進(jìn)一步處理蒲牧,使其更符合建模分析的需要撇贺,以“包月轉(zhuǎn)包年”模型為例,數(shù)據(jù)預(yù)處理包括以下方面冰抢。
(1)字段處理
將寬表數(shù)據(jù)根據(jù)建模要求進(jìn)行數(shù)據(jù)統(tǒng)計(jì)松嘶、新字段定義,如統(tǒng)計(jì)用戶產(chǎn)品月齡挎扰、在訂/退訂產(chǎn)品包信息翠订,定義“次月是否新訂年包”等;基于營(yíng)銷時(shí)機(jī)的處理,如選擇最近訂購或退訂過包月業(yè)務(wù)的用戶遵倦。
(2)區(qū)別不同訂購方式
業(yè)務(wù)分析中尽超,發(fā)現(xiàn)用戶賬單支付和積分支付行為差距明顯,在建模前將兩類數(shù)據(jù)區(qū)別開梧躺,分別進(jìn)行建模似谁。
(3)數(shù)據(jù)分區(qū)
建模中將數(shù)據(jù)按訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行分區(qū)。
(4)數(shù)據(jù)平衡
整體用戶中訂購用戶相對(duì)稀疏掠哥,以某月數(shù)據(jù)為例巩踏,訂購用戶和未訂購用戶之比接近1∶60,在建模前需要對(duì)訂購用戶和未訂購用戶進(jìn)行數(shù)據(jù)平衡续搀。
數(shù)據(jù)建模主要是選擇合適的算法對(duì)數(shù)據(jù)進(jìn)行分析塞琼,并選擇最優(yōu)模型用于用戶預(yù)測(cè)〗希“包月轉(zhuǎn)包年”模型建模選擇了“自動(dòng)分類器”中的C5彪杉、判別、CHAID牵咙、C&R樹派近、Quest等算法進(jìn)行建模,其中賬單支付的各算法建模結(jié)果比較如圖3所示霜大,基于“總體精確性”指標(biāo)選擇最優(yōu)算法(賬單支付中選擇判別算法)构哺,用于后續(xù)進(jìn)行用戶預(yù)測(cè)的模型。
圖3 賬單支付下各算法建模結(jié)果比較
積分訂購建模中總體成功率更高战坤,以選擇的“C&R樹”算法為例,訓(xùn)練數(shù)據(jù)集結(jié)果為78.299%残拐,測(cè)試數(shù)據(jù)集結(jié)果為84.206%途茫,這與業(yè)務(wù)分析是一致的:對(duì)于積分支付用戶來說,只要用戶喜歡這些增值業(yè)務(wù)(有視頻觀看偏向)溪食,手里又有積分囊卜,那訂購的成功率還是較高的;對(duì)于賬單支付用戶來說,用戶要真金白銀的出錢考慮的因素就多了,況且還有樂視栅组、優(yōu)酷等其他互聯(lián)網(wǎng)品牌可以選擇雀瓢。
5.2 導(dǎo)出營(yíng)銷用戶清單
導(dǎo)出營(yíng)銷用戶清單包括數(shù)據(jù)預(yù)處理、用戶預(yù)測(cè)和推薦產(chǎn)品包選擇玉掸。數(shù)據(jù)預(yù)處理包括字段處理刃麸、用戶剔除(最近半年已營(yíng)銷用戶等)和區(qū)分用戶支付方式等。
數(shù)據(jù)預(yù)處理后司浪,使用第5.1節(jié)中選定的數(shù)據(jù)模型分別對(duì)賬單支付用戶和積分用戶進(jìn)行預(yù)測(cè)榆俺,得到下個(gè)月“根據(jù)模型可能訂購業(yè)務(wù)”的用戶殊校,并設(shè)置置信度閾值,選取營(yíng)銷目標(biāo)用戶。
最終提交的營(yíng)銷清單還包括向用戶推薦的產(chǎn)品包苍碟,嚴(yán)格意義上應(yīng)該分析用戶的視頻觀看行為得到用戶的視頻畫像,向用戶推薦“用戶最感興趣”的節(jié)目偷厦,實(shí)際營(yíng)銷中營(yíng)銷的產(chǎn)品包往往是有限的——根據(jù)自身資源和統(tǒng)計(jì)“最熱門”的產(chǎn)品來確定展氓。本次營(yíng)銷根據(jù)IPTV平臺(tái)的節(jié)目資源和以往用戶訂購統(tǒng)計(jì)信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀(jì)實(shí)高清半年包”“動(dòng)漫高清半年包”等在內(nèi)的十幾個(gè)產(chǎn)品包割去,內(nèi)容集中在電影窟却、電視劇、動(dòng)漫劫拗、紀(jì)實(shí)上间校。
為此,采用k-means聚類算法页慷,對(duì)用戶視頻觀看行為進(jìn)行聚類憔足,并根據(jù)營(yíng)銷的產(chǎn)品包顯示高清電影觀看時(shí)長(zhǎng)(vod_hd_mov_dur)、標(biāo)清電影觀看時(shí)長(zhǎng)(vod_non_hd_mov_ dur)酒繁、高清電視劇觀看時(shí)長(zhǎng)(vod_hd_tvp_dur)滓彰、標(biāo)清電視劇觀看時(shí)長(zhǎng)(vod_non_hd_tvp_dur)、高清紀(jì)實(shí)觀看時(shí)長(zhǎng)(vod_hd_doc_dur)州袒、高清動(dòng)漫觀看時(shí)長(zhǎng)(vod_hd_ct_dur)在聚類中的分布揭绑,結(jié)果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對(duì)分布郎哭,從中可看出對(duì)總體重要性而言他匪,動(dòng)漫、紀(jì)實(shí)排在前兩位夸研,這可以解釋大多用戶對(duì)電影邦蜜、電視劇偏向的普遍性;圖4(b)是“聚類內(nèi)重要性”的相對(duì)分布,基于圖4向用戶推薦產(chǎn)品包(其中聚類2只有兩個(gè)值作為離群值概率)亥至,見表1悼沈。
圖4 對(duì)用戶觀看內(nèi)容的聚類結(jié)果
5.3 模型評(píng)估優(yōu)化
模型的評(píng)估優(yōu)化包括部署前模型本身的評(píng)估和部署后根據(jù)營(yíng)銷反饋的優(yōu)化贱迟。
模型本身的評(píng)估包括:算法和測(cè)試分區(qū)的驗(yàn)證、平衡因子的調(diào)整絮供、字段的調(diào)整等衣吠。首先,通過選擇不同的算法得出不同的算法模型壤靶,結(jié)合測(cè)試分區(qū)的驗(yàn)證缚俏,選擇最優(yōu)算法或算法組合;本例中通過選擇“自動(dòng)分類器”中不同算法,并結(jié)合測(cè)試分區(qū)的驗(yàn)證確定最優(yōu)模型萍肆。然后通過調(diào)整平衡因子調(diào)整目標(biāo)用戶在整體數(shù)據(jù)中的比例袍榆,多次運(yùn)行模型,確定平衡因子的最優(yōu)范圍塘揣。還有結(jié)合建模結(jié)果中各字段的重要性進(jìn)行字段微調(diào)包雀。
同時(shí)模型還要根據(jù)營(yíng)銷反饋的數(shù)據(jù)進(jìn)行優(yōu)化,可以結(jié)合建模將用戶隨機(jī)分成幾組亲铡,調(diào)整算法才写、置信度、字段等奖蔓,結(jié)合不同的營(yíng)銷效果進(jìn)行模型的調(diào)優(yōu)赞草,這部分工作還在進(jìn)行中。
總之吆鹤,數(shù)據(jù)挖掘中建立數(shù)據(jù)模型不是分析的結(jié)束厨疙,而是又一輪分析的開始,要經(jīng)過各種手段的調(diào)整優(yōu)化疑务,不斷提升數(shù)據(jù)挖掘的效果沾凄。
6 結(jié)束語
本次分析主要配合某運(yùn)營(yíng)商省公司的電銷進(jìn)行,從效果來看知允,營(yíng)銷成功率比原先提升將近一倍撒蟀,效果最好的“包月轉(zhuǎn)包年”營(yíng)銷成功率由原來的不到5%提升到12%,應(yīng)該說取得了比較好的效果温鸽。
當(dāng)然數(shù)據(jù)挖掘在營(yíng)銷過程中主要還是幕后的“軍師”保屯,本文主要通過數(shù)據(jù)建模得出下月有可能成為“IPTV用戶”或“訂購增值業(yè)務(wù)的用戶”。而實(shí)際營(yíng)銷主要是向用戶提供滿足用戶需求的涤垫、性價(jià)比可接受的產(chǎn)品姑尺,大數(shù)據(jù)分析在IPTV用戶需求分析、產(chǎn)品提供等其他方面也可以發(fā)揮幕后軍師的作用蝠猬,全方位提升IPTV的營(yíng)銷效果股缸。同時(shí),大數(shù)據(jù)分析也可以擴(kuò)大到其他更廣的領(lǐng)域吱雏,就運(yùn)營(yíng)商內(nèi)部而言敦姻,在終端換機(jī)、3G升4G歧杏、交叉營(yíng)銷等方面镰惦,已經(jīng)利用大數(shù)據(jù)分析技術(shù)來有的放矢提高營(yíng)銷成功率∪蓿可以說旺入,大數(shù)據(jù)技術(shù)在電信行業(yè)已經(jīng)也將發(fā)揮更大的作用。
文章來源:電信科學(xué)