技術(shù)棧:??Flask框架确徙、Selenium爬蟲氢烘、機(jī)器學(xué)習(xí)、多元線性回歸預(yù)測(cè)模型仔引、LayUI框架扔仓、Echarts可視化大屏、淘寶數(shù)據(jù)采集
本課題的核心內(nèi)容是對(duì)數(shù)據(jù)分析平臺(tái)的基本需求為背景咖耘,根據(jù)預(yù)先設(shè)計(jì)的思路進(jìn)行平臺(tái)的搭建翘簇。運(yùn)用Selenium爬蟲技術(shù)將數(shù)據(jù)爬取并用Pandas進(jìn)行清洗后,將數(shù)據(jù)導(dǎo)入到MySQL中儿倒,使用數(shù)據(jù)可視化技術(shù)對(duì)數(shù)據(jù)進(jìn)行直觀地展示坐求,同時(shí)也通過機(jī)器學(xué)習(xí)中的多元線性回歸算法對(duì)商品銷量進(jìn)行預(yù)測(cè)履植,并導(dǎo)入后臺(tái)在后臺(tái)管理中查看或使用。最后,本平臺(tái)運(yùn)用黑盒測(cè)試對(duì)數(shù)據(jù)管理和后臺(tái)管理進(jìn)行功能性測(cè)試绰更,測(cè)試結(jié)果均符合預(yù)期且平臺(tái)能夠正常運(yùn)行家肯。
數(shù)據(jù)管理模塊主要目的是對(duì)數(shù)據(jù)進(jìn)行采集官紫、清洗钳榨、分析、可視化微谓、預(yù)測(cè)森篷。并將得到的數(shù)據(jù)存入數(shù)據(jù)庫中,在銷量預(yù)測(cè)豺型、數(shù)據(jù)可視化仲智、后臺(tái)管理的不同模塊中需要不同數(shù)據(jù)時(shí)在數(shù)據(jù)庫里進(jìn)行調(diào)用,再渲染到相應(yīng)界面姻氨。
(1)數(shù)據(jù)采集模塊設(shè)計(jì)
數(shù)據(jù)采集是數(shù)據(jù)分析的基礎(chǔ)坎藐,數(shù)據(jù)采集以淘寶電商為爬取目標(biāo),運(yùn)用selenium爬蟲技術(shù)爬取產(chǎn)品相關(guān)數(shù)據(jù)哼绑,并分成不同的產(chǎn)品類別岩馍,對(duì)空值和異常值,利用Python的Numpy庫和Pandas庫抖韩,去除數(shù)據(jù)里的臟數(shù)據(jù)和空數(shù)據(jù)蛀恩,使數(shù)據(jù)規(guī)范化,對(duì)不同指標(biāo)進(jìn)行分析茂浮,再將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中双谆。根據(jù)需求取出數(shù)據(jù)為后續(xù)數(shù)據(jù)可視化和機(jī)器學(xué)習(xí)提供數(shù)據(jù)壳咕。
常見的數(shù)據(jù)來源分為四類:開放數(shù)據(jù)源,爬蟲抓取顽馋,日志采集和傳感器谓厘。本文采用爬蟲抓取的方式實(shí)現(xiàn)數(shù)據(jù)采集。selenium是一個(gè)自動(dòng)化測(cè)試工具寸谜,它可以打開瀏覽器后模仿人的行為竟稳,直接提取網(wǎng)頁上的各種信息。
(2)數(shù)據(jù)預(yù)測(cè)模塊設(shè)計(jì)
精準(zhǔn)的銷售預(yù)測(cè)可以有效減少因庫存積壓或庫存短缺造成的利益損失熊痴、幫助管理者更好地制定市場(chǎng)營(yíng)銷策略以及提升客戶滿意度水平, 從而使社區(qū)電商建立起長(zhǎng)期的競(jìng)爭(zhēng)優(yōu)勢(shì)他爸。數(shù)據(jù)預(yù)測(cè)部分需要提前對(duì)數(shù)據(jù)進(jìn)行分析,了解數(shù)據(jù)的基本特征果善,根據(jù)數(shù)據(jù)的特征對(duì)其進(jìn)行預(yù)處理诊笤,將數(shù)據(jù)轉(zhuǎn)換成機(jī)器學(xué)習(xí)需要的格式。使用機(jī)器學(xué)習(xí)多元線性回歸算法構(gòu)建預(yù)測(cè)模型巾陕,我們可以基于數(shù)據(jù)池進(jìn)行訓(xùn)練集讨跟、驗(yàn)證集與測(cè)試集的劃分。訓(xùn)練集數(shù)據(jù)用于模型的訓(xùn)練, 使模型能夠?qū)μ卣髦蹬c目標(biāo)變量之間的映射關(guān)系進(jìn)行學(xué)習(xí)鄙煤。通過損失函數(shù)最小化许赃,對(duì)模型性能進(jìn)行評(píng)估,在選擇正確的算法后馆类,可以嘗試超參數(shù)調(diào)整對(duì)其進(jìn)行改進(jìn)以獲得更好的性能;最后弹谁,對(duì)模型在測(cè)試集上完成評(píng)估后應(yīng)用乾巧。
(3)數(shù)據(jù)可視化模塊設(shè)計(jì)
可視化分為歷史商品銷量排行榜,品牌銷量排行榜预愤、分類產(chǎn)品統(tǒng)計(jì)沟于、總銷量走勢(shì)圖、商品銷量分布植康、商品價(jià)格分布可視化旷太。商品銷量排行榜和品牌銷量排行榜爬取淘寶銷量和產(chǎn)品名稱、品牌銷量和品牌名稱销睁,根據(jù)數(shù)據(jù)的特點(diǎn)和數(shù)據(jù)可視化圖表的特點(diǎn)供璧,在echarts中選擇了動(dòng)態(tài)柱狀排序圖,更直觀的看出產(chǎn)品銷量數(shù)據(jù)和品牌銷量數(shù)據(jù)冻记;分類產(chǎn)品統(tǒng)計(jì)圖根據(jù)淘寶爬取的商品數(shù)據(jù)進(jìn)行分類睡毒,對(duì)產(chǎn)品類別數(shù)量進(jìn)行統(tǒng)計(jì),根據(jù)產(chǎn)品類別數(shù)量的特點(diǎn)選擇柱狀圖來展示冗栗;爬取并以月為單位對(duì)銷量進(jìn)行統(tǒng)計(jì)演顾,此時(shí)我們選用面積圖來渲染供搀,可通過面積變化看到銷量的變化;根據(jù)產(chǎn)品銷量的分布情況和商品價(jià)格分布情況選用旭日?qǐng)D渲染钠至「鹋埃可視化展示頁面要對(duì)社區(qū)電商數(shù)據(jù)分析平臺(tái)所展示的數(shù)據(jù)進(jìn)行總計(jì),應(yīng)包括:總店鋪數(shù)棉钧、總數(shù)據(jù)量屿脐、總類別三個(gè)部分。
? 對(duì)于社區(qū)電商產(chǎn)生的大量數(shù)據(jù)掰盘,通過數(shù)據(jù)分析平臺(tái)對(duì)數(shù)據(jù)進(jìn)行深度挖掘摄悯,找出其對(duì)企業(yè)及用戶的價(jià)值所在,社區(qū)電商企業(yè)可以利用這些數(shù)據(jù)并根據(jù)當(dāng)下疫情情況及商品銷量愧捕,做出相關(guān)決策和市場(chǎng)營(yíng)銷戰(zhàn)略奢驯,在如今井噴般涌入的社區(qū)電商平臺(tái)中占領(lǐng)有利地位。
面對(duì)繁雜的商品數(shù)據(jù)和疫情當(dāng)下不穩(wěn)定的經(jīng)濟(jì)市場(chǎng)次绘,通過爬取社區(qū)電商數(shù)據(jù)瘪阁,并使用與數(shù)據(jù)特性相符合的多元線性回歸算法對(duì)銷量進(jìn)行預(yù)測(cè),再用簡(jiǎn)潔的數(shù)據(jù)可視化展示出來的社區(qū)電商數(shù)據(jù)分析平臺(tái)一站式解決了數(shù)據(jù)采集邮偎、數(shù)據(jù)存儲(chǔ)管跺、數(shù)據(jù)分析、數(shù)據(jù)可視化和平臺(tái)管理的問題禾进。不僅僅是社區(qū)電商豁跑,其他產(chǎn)業(yè)比如金融、礦業(yè)泻云、媒體類都可以搭建類似的數(shù)據(jù)分析平臺(tái)艇拍,分析商品數(shù)據(jù)、優(yōu)先獲取數(shù)據(jù)信息背后的附加價(jià)值宠纯、加強(qiáng)企業(yè)競(jìng)爭(zhēng)力卸夕。
論文的主要工作如下:
第一,分析了社區(qū)電商平臺(tái)的現(xiàn)狀婆瓜。
第二快集,對(duì)本平臺(tái)所用到的香港技術(shù)進(jìn)行深入分析,合理使用Flask廉白、Bootstrap个初、Lay-UI框架,分析內(nèi)部框架和基本原理猴蹂,同時(shí)對(duì)Ajax勃黍、Echarts、Selenium晕讲、機(jī)器學(xué)習(xí)進(jìn)行了介紹和具體分析覆获。
第三马澈,分析了整個(gè)平臺(tái)的系統(tǒng)設(shè)計(jì),重點(diǎn)設(shè)計(jì)了本系統(tǒng)的兩大核心板塊——數(shù)據(jù)爬取和銷量預(yù)測(cè)弄息,再一步步構(gòu)建起整個(gè)系統(tǒng)痊班。
第四,對(duì)平臺(tái)進(jìn)行功能性測(cè)試和非功能性測(cè)試摹量。
?項(xiàng)目源碼分享涤伐,相互學(xué)習(xí),相互進(jìn)步~