大數(shù)據(jù)應(yīng)用解決方案舉例

1.? 物流車隊管理

一家物流公司管理著一支龐大的運(yùn)輸車隊劣像，該公司希望收集和分析數(shù)據(jù)，幫助調(diào)度員實時指揮車隊结借。

物流車隊管理可以提高運(yùn)輸效率和分配資源玄括。要收集和分析的數(shù)據(jù)主要來自實時數(shù)據(jù)鸦泳，例如車輛位置银锻，數(shù)字行車記錄儀數(shù)據(jù)，交通信息做鹰，貨物詳情击纬，到達(dá)時間和停車時長。數(shù)據(jù)格式是非結(jié)構(gòu)化的钾麸，包括地理信息更振，文本炕桨，視頻和圖片。為了避免數(shù)據(jù)丟失和損壞肯腕，有必要轉(zhuǎn)換這些非結(jié)構(gòu)化的處理分析前的數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)献宫。這個基礎(chǔ)設(shè)施的目標(biāo)是收集和分析用于指導(dǎo)車隊的各種來源數(shù)據(jù)，同時提供實時訪問權(quán)限实撒。

物流車隊數(shù)據(jù)基礎(chǔ)設(shè)施包括三個邏輯層：批處理層姊途，流處理層，服務(wù)層知态。批處理層可以很好的處理離線數(shù)據(jù)捷兰，但有很多場景數(shù)據(jù)不斷實時生成，并且需要實時查詢處理负敏。流處理層正是用來處理增量的實時數(shù)據(jù)贡茅。服務(wù)層用于響應(yīng)用戶的查詢請求，合并離線數(shù)據(jù)查詢結(jié)果和實時數(shù)據(jù)結(jié)果數(shù)據(jù)集到最終的數(shù)據(jù)集其做。

對于日志記錄收集顶考，多個Kafka集群將被使用，數(shù)據(jù)作為本地緩存存檔到Flume中庶柿。Kafka是一個分布式消息傳遞系統(tǒng)村怪，用于收集和傳送大量日志數(shù)據(jù)，低延遲浮庐。Kafka在這種情況下的主要貢獻(xiàn)是主題分區(qū)甚负，它將并行消息傳遞的負(fù)載分散到多個服務(wù)器上。Flume作為分布式系統(tǒng)結(jié)合Kafka可以有效地從HDFS或HBase收集审残，聚合和移動大量數(shù)據(jù)梭域。比較Sqoop和flume, sqoop更專注于結(jié)構(gòu)化數(shù)據(jù)，因為原始數(shù)據(jù)通常是非結(jié)構(gòu)化的或半結(jié)構(gòu)化的搅轿，所以在本系統(tǒng)中病涨，使用Flume作為數(shù)據(jù)管道來攝取數(shù)據(jù)。至于流處理系統(tǒng)中璧坟，Spark Streaming將用于分析實時數(shù)據(jù)和輸出將存儲在HBase中既穆。Spark Streaming是一個實時的處理系統(tǒng)，具有高吞吐量和容錯性雀鹃，與之相比的另一個實時分析系統(tǒng)Apache Storm幻工，Spark Streaming可以更容易設(shè)置基礎(chǔ)設(shè)施。來自Flume的所有原始數(shù)據(jù)將存儲在HDFS中以供進(jìn)一步使用處理黎茎，例如使用MapReduce和Hive來過濾和聚合數(shù)據(jù)以對大數(shù)據(jù)進(jìn)行挖掘囊颅。MapReduce在數(shù)據(jù)并行方面的性能優(yōu)于Spark，后者將用于本例中的數(shù)據(jù)特征構(gòu)造。在這種情況下踢代，Apache Hive可以將數(shù)據(jù)組織到表中盲憎，存儲系統(tǒng)HBase和Hive都可以提供查詢的訪問權(quán)限。

通常胳挎，Kafka和Spark Streaming基礎(chǔ)結(jié)構(gòu)具有以下優(yōu)點(diǎn)饼疙。該 Spark框架的高效率和低延遲確保了良好的實時性和Spark Streaming操作的性能。而且串远，與Storm相比宏多， Spark Streaming具有Spark提供的高級API和靈活性框架,它有助于以簡單的方式編寫更復(fù)雜的算法≡璺＃基礎(chǔ)設(shè)施的高度一致性使得車隊的主管可以輕松完成查詢實時數(shù)據(jù)伸但，它還確保了流處理和批處理的平衡處理。

2.? 商業(yè)分析：中小企業(yè)希望分析社交媒體數(shù)據(jù)以識別新興市場可以幫助他們相應(yīng)調(diào)整產(chǎn)品組合的趨勢留搔。數(shù)據(jù)分析的結(jié)果將需要被列入一份報告更胖，用于為每月舉行的下一次公司董事會會議的戰(zhàn)略決策提供信息。

在商業(yè)公司中隔显，零售商可以通過分析社交媒體來源來調(diào)整未來的產(chǎn)品組合却妨，以識別新興趨勢。使用來自社交媒體網(wǎng)絡(luò)的客戶偏好數(shù)據(jù)可以使決策者保持內(nèi)部了解市場趨勢括眠。從社交媒體收集的數(shù)據(jù)通常是JSON格式彪标，易于分析。如下所示掷豺，由于歷史格式數(shù)據(jù)捞烟，分析類型是批處理，可以確保更高的預(yù)測質(zhì)量当船。

下面顯示的基礎(chǔ)結(jié)構(gòu)是批處理题画。對于分析和預(yù)測巨大和高速度的大數(shù)據(jù)，Apache Hadoop平臺在可擴(kuò)展性和可靠性方面表現(xiàn)良好德频。具體來說苍息，在這個基礎(chǔ)設(shè)施中，它將使用flume與Kafka結(jié)合壹置，提供從本地數(shù)據(jù)中心更改數(shù)據(jù)日志的功能竞思，此外，它還提供將它們加載到集中式Hadoop集群的功能钞护。數(shù)據(jù)將存儲在HDFS中盖喷。在清理和處理原始數(shù)據(jù)之后，它將使用MapReduce和Spark通過人工智能技術(shù)進(jìn)行分析患亿，如時間序列和機(jī)器學(xué)習(xí)來進(jìn)行預(yù)測传蹈。最后，計算預(yù)測結(jié)果并將其存入HBase步藕，HBase將為其他可視化系統(tǒng)提供訪問惦界。在數(shù)據(jù)源層中，如第一個用例中所討論的咙冗，F(xiàn)lume與Kafka結(jié)合使用可以很好地進(jìn)行數(shù)據(jù)收集并且易于將數(shù)據(jù)寫入HDFS沾歪。 HDFS是一個高效的分布式文件系統(tǒng)，提供高度容錯和可擴(kuò)展性雾消，即使有許多類似的現(xiàn)有分布式文件系統(tǒng)灾搏，如AFS，NFS和GFS立润，HDFS顯示出比其他更多的優(yōu)勢狂窑，它是開源版本并為大批量數(shù)據(jù)提供更多的可能。?

Spark SQL通過使用API桑腮，在關(guān)系和程序化處理之間提供更緊密的集成泉哈。此外，許多用戶使用Spark SQL破讨，原因是它使用基于Hive的嵌套數(shù)據(jù)模型丛晦。與現(xiàn)有的數(shù)據(jù)框架Shark不同，Spark SQL可以準(zhǔn)確地為各種來源和格式的數(shù)據(jù)建模提陶。根據(jù)市場應(yīng)用表現(xiàn)烫沙，對于戰(zhàn)略業(yè)務(wù)決策的趨勢分析使用MapReduce和Spark表現(xiàn)出色。在這種情況下隙笆，MapReduce也將用于特征構(gòu)造锌蓄，Spark將用于時間序列分析和機(jī)器學(xué)習(xí)，以預(yù)測銷售仲器，這是預(yù)測系統(tǒng)的核心部分煤率。

3.? 信用卡欺詐檢測：金融機(jī)構(gòu)需要開發(fā)一種檢測方法識別信用卡欺詐。鑒于為客戶提供可靠服務(wù)的重要性乏冀，需要開發(fā)在交易被阻止之前進(jìn)行提供自動分析預(yù)警和交互式用戶輸入的功能蝶糯。

欺詐檢測通過預(yù)測特定交易或客戶賬戶中欺詐的可能性來幫助提高客戶賬戶安全。如下所示辆沦，欺詐檢測模型中使用的批處理數(shù)據(jù)是從包括信用卡交易特征昼捍，持卡人特征和交易歷史的歷史數(shù)據(jù)中收集的。對于實時欺詐預(yù)測肢扯，實時數(shù)據(jù)是根據(jù)信用交易和電子交易的內(nèi)部數(shù)據(jù)而獲取到妒茬，并已轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。在欺詐檢測流處理期間蔚晨，系統(tǒng)需要保證低延遲乍钻，高容錯處理肛循，并且需要對每個數(shù)據(jù)進(jìn)行實時精確處理。

解決方案通常分為兩個階段银择，首先多糠，由歷史數(shù)據(jù)分析和取證分析組成的引擎，其用于構(gòu)建機(jī)器學(xué)習(xí)模型浩考，同時夹孔，明確和經(jīng)常更新的欺詐指標(biāo)有助于提高欺詐檢測的準(zhǔn)確性。第二階段將使用第一階段構(gòu)建的模型來預(yù)測實時數(shù)據(jù)析孽。由于基礎(chǔ)設(shè)施主要集中在第二階段搭伤，我們假設(shè)機(jī)器學(xué)習(xí)模型已經(jīng)很好地構(gòu)建。在流處理過程中袜瞬，基礎(chǔ)設(shè)施將使用Kafka存儲和匯聚流數(shù)據(jù)到Storm實現(xiàn)實時數(shù)據(jù)分析功能怜俐。

上圖顯示了實時欺詐檢測解決方案的基礎(chǔ)結(jié)構(gòu)。信用卡交易事件通過Flume從服務(wù)器獲取并存儲在Apache Kafka邓尤。在此解決方案中佑菩，Apache Storm根據(jù)模型處理所有原始事件，檢測結(jié)果將存儲在Redis中供實時服務(wù)器使用裁赠，欺詐檢測需要高級別速度系統(tǒng)進(jìn)行分析殿漠，與其他流處理系統(tǒng)相比，使用Storm可能是需要近乎實時處理的工作負(fù)載的最佳方式佩捞。它可以處理非常大的數(shù)據(jù)绞幌，延遲比其他解決方案更少。Redis作為緩存一忱，可以將數(shù)據(jù)保存在硬盤上莲蜘。

此外，Redis提供的功能比其他緩存系統(tǒng)更多帘营，它可以支持多種數(shù)據(jù)類型和pub-sub模型并提供高可用性的回答票渠。同時，被識別的非欺詐事件和欺詐事件都會存儲到HBASE中以供將來分析芬迄，對機(jī)器學(xué)習(xí)的模型進(jìn)行訓(xùn)練和更新问顷。

總的來說，Kafka基于日志文件禀梳，可以與Storm高度兼容杜窄。在數(shù)據(jù)存儲階段，Redis作為緩存數(shù)據(jù)庫在實時環(huán)境中具有較高的讀寫速度算途，可以滿足用戶對實時監(jiān)控和查詢的需求塞耕。

4.? 交通管制和收費(fèi)：一家公司贏得了開發(fā)一個監(jiān)控一個國家所有主要道路（即高速公路）交通系統(tǒng)的投標(biāo)。系統(tǒng)不僅應(yīng)報告交通違規(guī)行為嘴瓤，如超速駕駛或冒險駕駛行為扫外，還應(yīng)提供自動收費(fèi)計費(fèi)系統(tǒng)的數(shù)據(jù)莉钙。

交通控制和收費(fèi)系統(tǒng)可以幫助更好地監(jiān)控交通違規(guī)，例如超速或冒險駕駛行為筛谚，還可以將數(shù)據(jù)傳送到自動計費(fèi)系統(tǒng)胆胰。如下所示，各種內(nèi)容格式和大量快速數(shù)據(jù)是一個巨大的挑戰(zhàn)刻获。來自道路傳感器，GPS設(shè)備以及其他數(shù)據(jù)（如日期瞎嬉，時間和駕駛員ID）的數(shù)據(jù)將被放入系統(tǒng)中蝎毡，以提供交通違規(guī)的實時摘要。

此架構(gòu)使用相同的訂閱消息傳遞系統(tǒng)氧枣，Kafka來收集流數(shù)據(jù)沐兵。收集的數(shù)據(jù)將發(fā)送到HDFS。就大量的時間流數(shù)據(jù)而言便监，Yarn作為資源管理系統(tǒng)可以提供集群監(jiān)控和資源訪問管理扎谎，可以提高處理效率。然后烧董，數(shù)據(jù)將在批處理層和流處理層中處理毁靶。在批處理層中，它將使用Hive逊移，MapReduce來基本處理原始數(shù)據(jù)预吆，并存儲在HBase中以供進(jìn)一步使用。在流處理中胳泉，它將使用Spark流來分析實時數(shù)據(jù)拐叉，并存儲在Redis中。在HBase和Redis中收集的數(shù)據(jù)將輸入到機(jī)器學(xué)習(xí)模型中以識別哪些車輛超出速度限制或風(fēng)險駕駛行為扇商，整體結(jié)果將被發(fā)送到自動收費(fèi)計費(fèi)系統(tǒng)凤瘦。

此集成的關(guān)鍵是使用Kafka作為可擴(kuò)展和有序的事件存儲。在這種情況下案铺，主要的挑戰(zhàn)是每秒存儲和處理這種數(shù)據(jù)收集以及包含數(shù)十萬個鏈接的地圖蔬芥。 HDFS可以滿足上述存儲需求。它可以在短時間內(nèi)處理數(shù)千萬個文件控汉。HDFS具有文件的一次寫入多次訪問模型坝茎，可簡化數(shù)據(jù)一致性問題并實現(xiàn)高吞吐量數(shù)據(jù)訪問。 Mapreduce完全適合暇番，由于Mapreduce中4000個節(jié)點(diǎn)的可擴(kuò)展限制嗤放，它將在執(zhí)行Mapreduce之前使用YARN作為數(shù)據(jù)資源管理，因為Mapreduce中提供的資源管理能力需要YARN壁酬，這有效地調(diào)整了Mapreduce次酌。Mapreduce顯示了處理數(shù)據(jù)的可靠性恨课，它將用于Hadoop進(jìn)行批處理，從而進(jìn)行進(jìn)一步的分析岳服。HBase的使用將在分布式集群中擴(kuò)展剂公。與Storm和Flink等其他流處理相比，Spark流處理系統(tǒng)可以有效地在數(shù)據(jù)流上應(yīng)用機(jī)器學(xué)習(xí)算法吊宋。

作者原創(chuàng)纲辽，轉(zhuǎn)載請說明。

工作學(xué)習(xí)大數(shù)據(jù)的一些輸出璃搜，歡迎指錯提高拖吼，作為一名數(shù)據(jù)產(chǎn)品新人，也歡迎討論这吻。微信：ren18603342028

最后編輯于：2019.08.12 14:48:43

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末吊档，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子唾糯，更是在濱河造成了極大的恐慌怠硼，老刑警劉巖，帶你破解...
沈念sama閱讀 223,002評論 6贊 519
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件移怯，死亡現(xiàn)場離奇詭異香璃，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)舟误，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,357評論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門增显，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人脐帝，你說我怎么就攤上這事同云。” “怎么了堵腹？”我有些...
開封第一講書人閱讀 169,787評論 0贊 365
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵炸站，是天一觀的道長。經(jīng)常有香客問我疚顷，道長旱易，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,237評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任腿堤，我火速辦了婚禮阀坏，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘笆檀。我一直安慰自己忌堂，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,237評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布酗洒。她就那樣靜靜地躺著士修，像睡著了一般枷遂。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上棋嘲，一...
開封第一講書人閱讀 52,821評論 1贊 314
城市分裂傳說
那天酒唉，我揣著相機(jī)與錄音，去河邊找鬼沸移。笑死痪伦，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的雹锣。我是一名探鬼主播网沾，決...
沈念sama閱讀 41,236評論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼笆制！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起涣达，我...
開封第一講書人閱讀 40,196評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤在辆，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后度苔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體匆篓，經(jīng)...
沈念sama閱讀 46,716評論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,794評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年寇窑，在試婚紗的時候發(fā)現(xiàn)自己被綠了鸦概。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,928評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡甩骏，死狀恐怖窗市，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情饮笛，我是刑警寧澤咨察，帶...
沈念sama閱讀 36,583評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站福青，受9級特大地震影響摄狱，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜无午，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,264評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一媒役、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧宪迟，春花似錦酣衷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,755評論 0贊 25
一樁弒父案鸥诽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽商玫。三九已至，卻和暖如春牡借，著一層夾襖步出監(jiān)牢的瞬間拳昌，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,869評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工钠龙，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炬藤，地道東北人。一個月前我還...
沈念sama閱讀 49,378評論 3贊 379
代替公主和親
正文我出身青樓碴里，卻偏偏與公主長得像沈矿，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子咬腋，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,937評論 2贊 361

大數(shù)據(jù)應(yīng)用解決方案舉例

推薦閱讀更多精彩內(nèi)容