大數(shù)據(jù)應(yīng)用解決方案舉例

1.? 物流車隊管理

一家物流公司管理著一支龐大的運(yùn)輸車隊劣像,該公司希望收集和分析數(shù)據(jù),幫助調(diào)度員實時指揮車隊结借。


物流車隊管理可以提高運(yùn)輸效率和分配資源玄括。要收集和分析的數(shù)據(jù)主要來自實時數(shù)據(jù)鸦泳,例如車輛位置银锻,數(shù)字行車記錄儀數(shù)據(jù),交通信息做鹰,貨物詳情击纬,到達(dá)時間和停車時長。數(shù)據(jù)格式是非結(jié)構(gòu)化的钾麸,包括地理信息更振,文本炕桨,視頻和圖片。為了避免數(shù)據(jù)丟失和損壞肯腕,有必要轉(zhuǎn)換這些非結(jié)構(gòu)化的處理分析前的數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)献宫。這個基礎(chǔ)設(shè)施的目標(biāo)是收集和分析用于指導(dǎo)車隊的各種來源數(shù)據(jù),同時提供實時訪問權(quán)限实撒。



物流車隊數(shù)據(jù)基礎(chǔ)設(shè)施包括三個邏輯層:批處理層姊途,流處理層,服務(wù)層知态。批處理層可以很好的處理離線數(shù)據(jù)捷兰,但有很多場景數(shù)據(jù)不斷實時生成,并且需要實時查詢處理负敏。流處理層正是用來處理增量的實時數(shù)據(jù)贡茅。服務(wù)層用于響應(yīng)用戶的查詢請求,合并離線數(shù)據(jù)查詢結(jié)果和實時數(shù)據(jù)結(jié)果數(shù)據(jù)集到最終的數(shù)據(jù)集其做。


對于日志記錄收集顶考,多個Kafka集群將被使用,數(shù)據(jù)作為本地緩存存檔到Flume中庶柿。Kafka是一個分布式消息傳遞系統(tǒng)村怪,用于收集和傳送大量日志數(shù)據(jù),低延遲浮庐。Kafka在這種情況下的主要貢獻(xiàn)是主題分區(qū)甚负,它將并行消息傳遞的負(fù)載分散到多個服務(wù)器上。Flume作為分布式系統(tǒng)結(jié)合Kafka可以有效地從HDFS或HBase收集审残,聚合和移動大量數(shù)據(jù)梭域。比較Sqoop和flume, sqoop更專注于結(jié)構(gòu)化數(shù)據(jù),因為原始數(shù)據(jù)通常是非結(jié)構(gòu)化的或半結(jié)構(gòu)化的搅轿,所以在本系統(tǒng)中病涨,使用Flume作為數(shù)據(jù)管道來攝取數(shù)據(jù)。至于流處理系統(tǒng)中璧坟,Spark Streaming將用于分析實時數(shù)據(jù)和輸出將存儲在HBase中既穆。Spark Streaming是一個實時的處理系統(tǒng),具有高吞吐量和容錯性雀鹃,與之相比的另一個實時分析系統(tǒng)Apache Storm幻工,Spark Streaming可以更容易設(shè)置基礎(chǔ)設(shè)施。來自Flume的所有原始數(shù)據(jù)將存儲在HDFS中以供進(jìn)一步使用處理黎茎,例如使用MapReduce和Hive來過濾和聚合數(shù)據(jù)以對大數(shù)據(jù)進(jìn)行挖掘囊颅。MapReduce在數(shù)據(jù)并行方面的性能優(yōu)于Spark,后者將用于本例中的數(shù)據(jù)特征構(gòu)造。在這種情況下踢代,Apache Hive可以將數(shù)據(jù)組織到表中盲憎,存儲系統(tǒng)HBase和Hive都可以提供查詢的訪問權(quán)限。

通常胳挎,Kafka和Spark Streaming基礎(chǔ)結(jié)構(gòu)具有以下優(yōu)點(diǎn)饼疙。該 Spark框架的高效率和低延遲確保了良好的實時性和Spark Streaming操作的性能。而且串远,與Storm相比宏多, Spark Streaming具有Spark提供的高級API和靈活性框架,它有助于以簡單的方式編寫更復(fù)雜的算法≡璺#基礎(chǔ)設(shè)施的高度一致性使得車隊的主管可以輕松完成查詢實時數(shù)據(jù)伸但,它還確保了流處理和批處理的平衡處理。



2.? 商業(yè)分析:中小企業(yè)希望分析社交媒體數(shù)據(jù)以識別新興市場可以幫助他們相應(yīng)調(diào)整產(chǎn)品組合的趨勢留搔。數(shù)據(jù)分析的結(jié)果將需要被列入一份報告更胖,用于為每月舉行的下一次公司董事會會議的戰(zhàn)略決策提供信息。


在商業(yè)公司中隔显,零售商可以通過分析社交媒體來源來調(diào)整未來的產(chǎn)品組合却妨,以識別新興趨勢。使用來自社交媒體網(wǎng)絡(luò)的客戶偏好數(shù)據(jù)可以使決策者保持內(nèi)部了解市場趨勢括眠。從社交媒體收集的數(shù)據(jù)通常是JSON格式彪标,易于分析。如下所示掷豺,由于歷史格式數(shù)據(jù)捞烟,分析類型是批處理,可以確保更高的預(yù)測質(zhì)量当船。


下面顯示的基礎(chǔ)結(jié)構(gòu)是批處理题画。對于分析和預(yù)測巨大和高速度的大數(shù)據(jù),Apache Hadoop平臺在可擴(kuò)展性和可靠性方面表現(xiàn)良好德频。具體來說苍息,在這個基礎(chǔ)設(shè)施中,它將使用flume與Kafka結(jié)合壹置,提供從本地數(shù)據(jù)中心更改數(shù)據(jù)日志的功能竞思,此外,它還提供將它們加載到集中式Hadoop集群的功能钞护。數(shù)據(jù)將存儲在HDFS中盖喷。在清理和處理原始數(shù)據(jù)之后,它將使用MapReduce和Spark通過人工智能技術(shù)進(jìn)行分析患亿,如時間序列和機(jī)器學(xué)習(xí)來進(jìn)行預(yù)測传蹈。最后,計算預(yù)測結(jié)果并將其存入HBase步藕,HBase將為其他可視化系統(tǒng)提供訪問惦界。在數(shù)據(jù)源層中,如第一個用例中所討論的咙冗,F(xiàn)lume與Kafka結(jié)合使用可以很好地進(jìn)行數(shù)據(jù)收集并且易于將數(shù)據(jù)寫入HDFS沾歪。 HDFS是一個高效的分布式文件系統(tǒng),提供高度容錯和可擴(kuò)展性雾消,即使有許多類似的現(xiàn)有分布式文件系統(tǒng)灾搏,如AFS,NFS和GFS立润,HDFS顯示出比其他更多的優(yōu)勢狂窑,它是開源版本并為大批量數(shù)據(jù)提供更多的可能。?

Spark SQL通過使用API桑腮,在關(guān)系和程序化處理之間提供更緊密的集成泉哈。此外,許多用戶使用Spark SQL破讨,原因是它使用基于Hive的嵌套數(shù)據(jù)模型丛晦。與現(xiàn)有的數(shù)據(jù)框架Shark不同,Spark SQL可以準(zhǔn)確地為各種來源和格式的數(shù)據(jù)建模提陶。根據(jù)市場應(yīng)用表現(xiàn)烫沙,對于戰(zhàn)略業(yè)務(wù)決策的趨勢分析使用MapReduce和Spark表現(xiàn)出色。在這種情況下隙笆,MapReduce也將用于特征構(gòu)造锌蓄,Spark將用于時間序列分析和機(jī)器學(xué)習(xí),以預(yù)測銷售仲器,這是預(yù)測系統(tǒng)的核心部分煤率。


3.? 信用卡欺詐檢測:金融機(jī)構(gòu)需要開發(fā)一種檢測方法識別信用卡欺詐。鑒于為客戶提供可靠服務(wù)的重要性乏冀,需要開發(fā)在交易被阻止之前進(jìn)行提供自動分析預(yù)警和交互式用戶輸入的功能蝶糯。


欺詐檢測通過預(yù)測特定交易或客戶賬戶中欺詐的可能性來幫助提高客戶賬戶安全。 如下所示辆沦,欺詐檢測模型中使用的批處理數(shù)據(jù)是從包括信用卡交易特征昼捍,持卡人特征和交易歷史的歷史數(shù)據(jù)中收集的。對于實時欺詐預(yù)測肢扯,實時數(shù)據(jù)是根據(jù)信用交易和電子交易的內(nèi)部數(shù)據(jù)而獲取到妒茬,并已轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。在欺詐檢測流處理期間蔚晨,系統(tǒng)需要保證低延遲乍钻,高容錯處理肛循,并且需要對每個數(shù)據(jù)進(jìn)行實時精確處理。


解決方案通常分為兩個階段银择,首先多糠,由歷史數(shù)據(jù)分析和取證分析組成的引擎,其用于構(gòu)建機(jī)器學(xué)習(xí)模型浩考,同時夹孔,明確和經(jīng)常更新的欺詐指標(biāo)有助于提高欺詐檢測的準(zhǔn)確性。 第二階段將使用第一階段構(gòu)建的模型來預(yù)測實時數(shù)據(jù)析孽。由于基礎(chǔ)設(shè)施主要集中在第二階段搭伤,我們假設(shè)機(jī)器學(xué)習(xí)模型已經(jīng)很好地構(gòu)建。在流處理過程中袜瞬,基礎(chǔ)設(shè)施將使用Kafka存儲和匯聚流數(shù)據(jù)到Storm實現(xiàn)實時數(shù)據(jù)分析功能怜俐。

上圖顯示了實時欺詐檢測解決方案的基礎(chǔ)結(jié)構(gòu)。信用卡交易事件通過Flume從服務(wù)器獲取并存儲在Apache Kafka邓尤。在此解決方案中佑菩,Apache Storm根據(jù)模型處理所有原始事件,檢測結(jié)果將存儲在Redis中供實時服務(wù)器使用裁赠,欺詐檢測需要高級別速度系統(tǒng)進(jìn)行分析殿漠,與其他流處理系統(tǒng)相比,使用Storm可能是需要近乎實時處理的工作負(fù)載的最佳方式佩捞。它可以處理非常大的數(shù)據(jù)绞幌,延遲比其他解決方案更少。Redis作為緩存一忱,可以將數(shù)據(jù)保存在硬盤上莲蜘。


此外,Redis提供的功能比其他緩存系統(tǒng)更多帘营,它可以支持多種數(shù)據(jù)類型和pub-sub模型并提供高可用性的回答票渠。同時,被識別的非欺詐事件和欺詐事件都會存儲到HBASE中以供將來分析芬迄,對機(jī)器學(xué)習(xí)的模型進(jìn)行訓(xùn)練和更新问顷。


總的來說,Kafka基于日志文件禀梳,可以與Storm高度兼容杜窄。 在數(shù)據(jù)存儲階段,Redis作為緩存數(shù)據(jù)庫在實時環(huán)境中具有較高的讀寫速度算途,可以滿足用戶對實時監(jiān)控和查詢的需求塞耕。



?

4.? 交通管制和收費(fèi):一家公司贏得了開發(fā)一個監(jiān)控一個國家所有主要道路(即高速公路)交通系統(tǒng)的投標(biāo)。系統(tǒng)不僅應(yīng)報告交通違規(guī)行為嘴瓤,如超速駕駛或冒險駕駛行為扫外,還應(yīng)提供自動收費(fèi)計費(fèi)系統(tǒng)的數(shù)據(jù)莉钙。


交通控制和收費(fèi)系統(tǒng)可以幫助更好地監(jiān)控交通違規(guī),例如超速或冒險駕駛行為筛谚,還可以將數(shù)據(jù)傳送到自動計費(fèi)系統(tǒng)胆胰。如下所示,各種內(nèi)容格式和大量快速數(shù)據(jù)是一個巨大的挑戰(zhàn)刻获。 來自道路傳感器,GPS設(shè)備以及其他數(shù)據(jù)(如日期瞎嬉,時間和駕駛員ID)的數(shù)據(jù)將被放入系統(tǒng)中蝎毡,以提供交通違規(guī)的實時摘要。




此架構(gòu)使用相同的訂閱消息傳遞系統(tǒng)氧枣,Kafka來收集流數(shù)據(jù)沐兵。收集的數(shù)據(jù)將發(fā)送到HDFS。 就大量的時間流數(shù)據(jù)而言便监,Yarn作為資源管理系統(tǒng)可以提供集群監(jiān)控和資源訪問管理扎谎,可以提高處理效率。然后烧董,數(shù)據(jù)將在批處理層和流處理層中處理毁靶。 在批處理層中,它將使用Hive逊移,MapReduce來基本處理原始數(shù)據(jù)预吆,并存儲在HBase中以供進(jìn)一步使用。 在流處理中胳泉,它將使用Spark流來分析實時數(shù)據(jù)拐叉,并存儲在Redis中。在HBase和Redis中收集的數(shù)據(jù)將輸入到機(jī)器學(xué)習(xí)模型中以識別哪些車輛超出速度限制或風(fēng)險駕駛行為扇商,整體結(jié)果將被發(fā)送到自動收費(fèi)計費(fèi)系統(tǒng)凤瘦。


此集成的關(guān)鍵是使用Kafka作為可擴(kuò)展和有序的事件存儲。在這種情況下案铺,主要的挑戰(zhàn)是每秒存儲和處理這種數(shù)據(jù)收集以及包含數(shù)十萬個鏈接的地圖蔬芥。 HDFS可以滿足上述存儲需求。它可以在短時間內(nèi)處理數(shù)千萬個文件控汉。HDFS具有文件的一次寫入多次訪問模型坝茎,可簡化數(shù)據(jù)一致性問題并實現(xiàn)高吞吐量數(shù)據(jù)訪問。 Mapreduce完全適合暇番,由于Mapreduce中4000個節(jié)點(diǎn)的可擴(kuò)展限制嗤放,它將在執(zhí)行Mapreduce之前使用YARN作為數(shù)據(jù)資源管理,因為Mapreduce中提供的資源管理能力需要YARN壁酬,這有效地調(diào)整了Mapreduce次酌。Mapreduce顯示了處理數(shù)據(jù)的可靠性恨课,它將用于Hadoop進(jìn)行批處理,從而進(jìn)行進(jìn)一步的分析岳服。HBase的使用將在分布式集群中擴(kuò)展剂公。與Storm和Flink等其他流處理相比,Spark流處理系統(tǒng)可以有效地在數(shù)據(jù)流上應(yīng)用機(jī)器學(xué)習(xí)算法吊宋。




作者原創(chuàng)纲辽,轉(zhuǎn)載請說明。

工作學(xué)習(xí)大數(shù)據(jù)的一些輸出璃搜,歡迎指錯提高拖吼,作為一名數(shù)據(jù)產(chǎn)品新人,也歡迎討論这吻。微信:ren18603342028

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吊档,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子唾糯,更是在濱河造成了極大的恐慌怠硼,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,002評論 6 519
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件移怯,死亡現(xiàn)場離奇詭異香璃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)舟误,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,357評論 3 400
  • 文/潘曉璐 我一進(jìn)店門增显,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人脐帝,你說我怎么就攤上這事同云。” “怎么了堵腹?”我有些...
    開封第一講書人閱讀 169,787評論 0 365
  • 文/不壞的土叔 我叫張陵炸站,是天一觀的道長。 經(jīng)常有香客問我疚顷,道長旱易,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,237評論 1 300
  • 正文 為了忘掉前任腿堤,我火速辦了婚禮阀坏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘笆檀。我一直安慰自己忌堂,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,237評論 6 398
  • 文/花漫 我一把揭開白布酗洒。 她就那樣靜靜地躺著士修,像睡著了一般枷遂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上棋嘲,一...
    開封第一講書人閱讀 52,821評論 1 314
  • 那天酒唉,我揣著相機(jī)與錄音,去河邊找鬼沸移。 笑死痪伦,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的雹锣。 我是一名探鬼主播网沾,決...
    沈念sama閱讀 41,236評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼笆制!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涣达,我...
    開封第一講書人閱讀 40,196評論 0 277
  • 序言:老撾萬榮一對情侶失蹤在辆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后度苔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體匆篓,經(jīng)...
    沈念sama閱讀 46,716評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,794評論 3 343
  • 正文 我和宋清朗相戀三年寇窑,在試婚紗的時候發(fā)現(xiàn)自己被綠了鸦概。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,928評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡甩骏,死狀恐怖窗市,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情饮笛,我是刑警寧澤咨察,帶...
    沈念sama閱讀 36,583評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站福青,受9級特大地震影響摄狱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜无午,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,264評論 3 336
  • 文/蒙蒙 一媒役、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宪迟,春花似錦酣衷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,755評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽商玫。三九已至,卻和暖如春牡借,著一層夾襖步出監(jiān)牢的瞬間拳昌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,869評論 1 274
  • 我被黑心中介騙來泰國打工钠龙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炬藤,地道東北人。 一個月前我還...
    沈念sama閱讀 49,378評論 3 379
  • 正文 我出身青樓碴里,卻偏偏與公主長得像沈矿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子咬腋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,937評論 2 361

推薦閱讀更多精彩內(nèi)容