Survey of wireless big data | SpringerLink
Qian, L., Zhu, J. & Zhang, S. Survey of wireless big data. J. Commun. Inf. Netw. 2, 1–18 (2017). https://doi.org/10.1007/s41650-017-0001-2
無線大數(shù)據(jù)描述了由無線設(shè)備和用戶在無線網(wǎng)絡(luò)中生成,收集和存儲的大量海量數(shù)據(jù)荣茫。 盡管這些數(shù)據(jù)與傳統(tǒng)大數(shù)據(jù)具有某些共同的屬性履恩,但它們具有自己的獨特特征漾稀,并為學(xué)術(shù)研究和實際應(yīng)用提供了眾多優(yōu)勢求泰。
本文回顧了無線大數(shù)據(jù)領(lǐng)域的最新進展和趨勢师坎。 由于篇幅所限厌杜,本次調(diào)查并非旨在涵蓋該領(lǐng)域的所有方面武通,而是著重于數(shù)據(jù)輔助傳輸霹崎,數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)優(yōu)化和新穎的應(yīng)用。
預(yù)期該調(diào)查將幫助讀者更好地理解這一激動人心的新興研究領(lǐng)域尾菇。
此外,還確定了未解決的問題和有希望的未來方向囚枪。
Introduction
無線大數(shù)據(jù)描述了具有高科技和智能價值的各種數(shù)據(jù)集派诬,就像迄今為止其他領(lǐng)域的大數(shù)據(jù)所證明的那樣。
例如链沼,無線信令數(shù)據(jù)可以描述網(wǎng)絡(luò)部署和服務(wù)質(zhì)量默赂。通話細節(jié)記錄可以揭示用戶之間的社交網(wǎng)絡(luò)結(jié)構(gòu)以及用戶的行為。時空位置數(shù)據(jù)可以幫助潛在的商業(yè)發(fā)展括勺。
以上示例僅代表最近促使研究界研究無線大數(shù)據(jù)的理論和方法的眾多案例中的少數(shù)案例缆八。
在過去的幾年中曲掰,世界各地的研究人員發(fā)表了許多有趣的著作,包括對用于城市交通分析和規(guī)劃的大數(shù)據(jù)的新穎見解奈辰,使用海量數(shù)據(jù)集的無線網(wǎng)絡(luò)優(yōu)化栏妖,無線用戶行為建模等。
此外奖恰,中國國家自然科學(xué)基金委員會已經(jīng)啟動了三個為期五年的無線大數(shù)據(jù)研究項目吊趾,旨在對這一領(lǐng)域中的某些(甚至不是全部)主題進行深入了解。
在過去幾年中瑟啃,與此同時出現(xiàn)的幾項并行發(fā)展刺激了朝著這個方向發(fā)展的戲劇性趨勢论泛。
首先,電信運營商中數(shù)據(jù)采集的計算機化導(dǎo)致了有關(guān)用戶行為和網(wǎng)絡(luò)行為的大型數(shù)據(jù)庫的出現(xiàn)翰守。
其次孵奶,大數(shù)據(jù)在其他領(lǐng)域的研究成功與日俱增,這鼓勵我們研究與無線相關(guān)的大數(shù)據(jù)分析蜡峰,以試圖促進傳輸并優(yōu)化網(wǎng)絡(luò)性能了袁。
最后,當(dāng)前的5G和未來的無線通信所面臨的挑戰(zhàn)促使我們尋求創(chuàng)新的解決方案湿颅,例如探索計算維度或統(tǒng)一計算和通信载绿。
盡管計算機科學(xué)領(lǐng)域的進步,尤其是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域的進步油航,已經(jīng)帶來了大數(shù)據(jù)研究的許多成功案例崭庸,例如Google或iFLYTEK等公司提供的新應(yīng)用程序和服務(wù),但無線大數(shù)據(jù)研究仍然存在許多挑戰(zhàn)谊囚。例如怕享,無線信道的隨機性和相關(guān)的調(diào)制/解調(diào)以及無線用戶的行為會創(chuàng)建非常動態(tài)的數(shù)據(jù)集。
該領(lǐng)域中已經(jīng)有針對特定主題的評論論文镰踏。
參考文獻中的作者[1]總結(jié)了基于手機數(shù)據(jù)集的分析函筋,包括可以用這些數(shù)據(jù)構(gòu)建的社交網(wǎng)絡(luò),個人流動性研究奠伪,地理分區(qū)跌帐,城市規(guī)劃,促進發(fā)展以及安全和隱私問題绊率。
參考文獻中的作者[2]通過詳細審查方法和算法并在相同問題上比較現(xiàn)有結(jié)果谨敛,對GPS挖掘出的移動性模式進行了專門而全面的調(diào)查,從而為研究提供了一個總體視角滤否。
這項調(diào)查旨在介紹和討論無線大數(shù)據(jù)的最新進展脸狸,包括基本概念和符號,數(shù)據(jù)收集和存儲藐俺,傳輸技術(shù)以及與網(wǎng)絡(luò)層相關(guān)的主題和應(yīng)用肥惭。但是盯仪,由于篇幅所限,本次調(diào)查并未涵蓋所有重要主題蜜葱,我們?nèi)詫⒈M最大努力為讀者提供無線大數(shù)據(jù)的綜合研究框架全景。
本次調(diào)查的內(nèi)容如圖1所示。
我們將內(nèi)容分為四層:數(shù)據(jù)層牵囤,傳輸層爸黄,網(wǎng)絡(luò)層和應(yīng)用層,從下到上揭鳞。
在數(shù)據(jù)層中炕贵,我們首先介紹有關(guān)無線大數(shù)據(jù)的兩個現(xiàn)有概念,并提出面向目的的表示法野崇。此后称开,我們討論數(shù)據(jù)收集技術(shù),數(shù)據(jù)模型和數(shù)據(jù)分析乓梨。
在傳輸層中鳖轰,回顧了頻譜大數(shù)據(jù)和使用數(shù)據(jù)分析的多用戶訪問方面的進展。
在網(wǎng)絡(luò)層中扶镀,我們選擇最關(guān)注的三個主題:網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計蕴侣,流量分析和網(wǎng)絡(luò)規(guī)劃。但是臭觉,我們忽略了諸如數(shù)據(jù)驅(qū)動的切換機制之類的主題昆雀。
在應(yīng)用程序?qū)又校泻芏喔挥谐晒墓ぷ黩鹬虼宋覀兎謩e從物理空間域和邏輯社交域中選取了兩個關(guān)鍵方面狞膘,即用戶移動性分析和社交網(wǎng)絡(luò)分析。此外什乙,我們還將討論三個潛在的應(yīng)用領(lǐng)域:智能電網(wǎng)挽封,物聯(lián)網(wǎng)(IoT)和無人機/無人機(UAV)。
本文的其余部分安排如下稳强。
第2節(jié)介紹了無線大數(shù)據(jù)的某些概念和類別,然后回顧了數(shù)據(jù)收集和悦,數(shù)據(jù)模型和數(shù)據(jù)分析退疫。
第3節(jié)介紹了兩個與無線傳輸相關(guān)的主題。
第4節(jié)介紹了與無線網(wǎng)絡(luò)層相關(guān)的體系結(jié)構(gòu)設(shè)計鸽素,流量分析和網(wǎng)絡(luò)優(yōu)化褒繁。
第5節(jié)概述了無線大數(shù)據(jù)應(yīng)用程序的五個關(guān)鍵方面。
第6節(jié)討論了無線大數(shù)據(jù)的隱私和安全性馍忽。
第7節(jié)討論了結(jié)論和未解決的問題棒坏。
Data layer related
在本節(jié)中燕差,我們首先討論無線大數(shù)據(jù)的概念,然后介紹數(shù)據(jù)收集坝冕,模型和分析徒探。
Concepts and categories
具體而精確的定義始終是了解我們的世界的第一步。但是喂窟,對于無線大數(shù)據(jù)测暗,我們尚未建立公認(rèn)的概念。因此磨澡,有必要首先回顧大數(shù)據(jù)的定義碗啄。
到目前為止,我們已經(jīng)熟悉了大數(shù)據(jù)的4V:容量稳摄,速度稚字,多樣性和準(zhǔn)確性,它們從數(shù)據(jù)集的大小厦酬,數(shù)據(jù)輸入和輸出的速度胆描,數(shù)據(jù)類型和源的范圍以及數(shù)據(jù)的質(zhì)量來評估大數(shù)據(jù)。
然而弃锐,盡管具有所有這些特征袄友,無線大數(shù)據(jù)通常被認(rèn)為是現(xiàn)有通信和網(wǎng)絡(luò)系統(tǒng)無法在持久的時間內(nèi)傳輸,訪問霹菊,處理和提供服務(wù)的數(shù)據(jù)集剧蚣。
從電信運營商的角度來看,數(shù)據(jù)主要來自以下三個方面[3]:IT系統(tǒng)中的數(shù)據(jù):用戶屬性旋廷,業(yè)務(wù)消費信息鸠按,終端信息等。此外饶碘,這些數(shù)據(jù)是從CRM(客戶關(guān)系)中收集的管理)目尖,計費系統(tǒng)和終端自助注冊平臺≡耍可以根據(jù)這些數(shù)據(jù)描述基本的用戶肖像和特征瑟曲。接入網(wǎng)和核心網(wǎng)中的數(shù)據(jù):移動信令,DPI豪治,M2M數(shù)據(jù)等洞拨。當(dāng)客戶端使用語音,SMS或網(wǎng)絡(luò)服務(wù)時负拟,這些數(shù)據(jù)在有線/無線網(wǎng)絡(luò)中收集烦衣。數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)很復(fù)雜,因此需要針對不同類型的數(shù)據(jù)進行有針對性的分析和處理,以實現(xiàn)基于場景的用戶位置和偏好描述花吟。運營商Internet應(yīng)用程序中的數(shù)據(jù):在線營業(yè)廳數(shù)據(jù)秸歧,掌上營業(yè)數(shù)據(jù),機翼支付數(shù)據(jù)等衅澈。所有數(shù)據(jù)(包括用戶訪問模式键菱,地址,時間矾麻,業(yè)務(wù)偏好纱耻,投資和消費習(xí)慣)都完全保留在后臺可以輕松獲得的應(yīng)用程序。
張等险耀。[4] 主要從潛在應(yīng)用的角度將移動蜂窩網(wǎng)絡(luò)中的數(shù)據(jù)分為流量記錄數(shù)據(jù)弄喘,網(wǎng)絡(luò)性能數(shù)據(jù),移動終端數(shù)據(jù)和其他數(shù)據(jù)甩牺。
首先蘑志,蜂窩網(wǎng)絡(luò)中的流記錄數(shù)據(jù)可能是描述無線用戶行為的最重要數(shù)據(jù),包括XDR(呼叫/交易詳細記錄)形式的數(shù)據(jù)記錄和信令記錄贬派,并包含數(shù)據(jù)期間的主要屬性 連接會話测柠。
其次盆耽,如前所述,網(wǎng)絡(luò)性能數(shù)據(jù)旨在評估提供給無線用戶的網(wǎng)絡(luò)性能和服務(wù)質(zhì)量,主要包括KPI(關(guān)鍵性能指標(biāo))數(shù)據(jù)和MR(測量報告)冰蘑;包含信息的統(tǒng)計數(shù)據(jù)報告唠雕。 關(guān)于頻道質(zhì)量)料祠。
最后改衩,可以通過移動應(yīng)用程序收集移動終端數(shù)據(jù),其中包含設(shè)備信息侍筛,無線參數(shù)等萤皂。
在這項調(diào)查中,從網(wǎng)絡(luò)社會生態(tài)學(xué)的角度匣椰,我們將無線大數(shù)據(jù)進一步分為三類:原始無線大數(shù)據(jù)裆熙,派生無線大數(shù)據(jù),開發(fā)無線大數(shù)據(jù)禽笑。
首先入录,原始無線大數(shù)據(jù)表示由無線/移動通信服務(wù)的大量無線用戶生成的數(shù)據(jù)集,其中包括無線訪問行為佳镜,無線應(yīng)用需求等僚稿。
第二,導(dǎo)出的無線大數(shù)據(jù)表示頻譜邀杏,傳輸贫奠,訪問和開發(fā)和生產(chǎn)網(wǎng)絡(luò)數(shù)據(jù)以為無線用戶提供有效的通信服務(wù)。這些數(shù)據(jù)包括頻譜利用率的分布望蜡,超密集部署的小區(qū)的空間統(tǒng)計以及傳輸信號的資源分配唤崭。
最后,開發(fā)無線大數(shù)據(jù)意味著在測試和評估未知頻譜的性能脖律,新穎的傳輸技術(shù)谢肾,創(chuàng)新的接入和革命性的網(wǎng)絡(luò)結(jié)構(gòu)過程中生成的數(shù)據(jù)集。
在這里小泉,我們指出芦疏,無線大數(shù)據(jù)也可以根據(jù)其特定領(lǐng)域進行分類,包括蜂窩網(wǎng)絡(luò)微姊,Wi-Fi熱點和智能手機D2D酸茴,智能電網(wǎng),無線傳感器網(wǎng)絡(luò)兢交,物聯(lián)網(wǎng)等薪捍。
Data collection
從某種意義上講,數(shù)據(jù)收集是一個面向工程的問題配喳,盡管其目的不是用于無線大數(shù)據(jù)研究酪穿,但它主要涉及電信運營商。 但是晴裹,有關(guān)該主題的一些研究成果最近已經(jīng)發(fā)布被济。
針對復(fù)雜室內(nèi)工業(yè)環(huán)境中實時大數(shù)據(jù)的采集挑戰(zhàn)[5],提出了一種基于室內(nèi)WSN的RTBDG(實時大數(shù)據(jù)采集)算法涧团,傳感器節(jié)點可以對采集到的數(shù)據(jù)進行篩選只磷。 根據(jù)環(huán)境和設(shè)備的風(fēng)險分析要求,可以廣泛應(yīng)用于不同工業(yè)運營中的風(fēng)險分析少欺。
該主題的另一個有趣之處是基于壓縮感知[6]喳瓣。 作者試圖解決無線傳感器節(jié)點中能量不足的問題,并提出了一種基于壓縮感知的收集框架赞别,以在保持?jǐn)?shù)據(jù)質(zhì)量的同時最大程度地減少收集量畏陕。
Data model
應(yīng)用隨機矩陣?yán)碚撃P蛠肀硎緩亩鄠€來源收集的不同數(shù)量的數(shù)據(jù)。在參考文獻中[7]仿滔,研究了基于隨機矩陣?yán)碚摵鸵苿臃涓C網(wǎng)絡(luò)中機器學(xué)習(xí)的大數(shù)據(jù)分析統(tǒng)一數(shù)據(jù)模型惠毁。為了說明基于隨機矩陣?yán)碚摰拇髷?shù)據(jù)分析的性能,已經(jīng)提出了一些數(shù)據(jù)類型的示例崎页,例如大信號數(shù)據(jù)鞠绰,大交通數(shù)據(jù),大位置數(shù)據(jù)飒焦,大無線電波形數(shù)據(jù)和大異構(gòu)數(shù)據(jù)蜈膨,其中利用時空數(shù)據(jù)集的維數(shù)屿笼,解決大數(shù)據(jù)與移動蜂窩網(wǎng)絡(luò)之間的相互關(guān)系和獨特特征。此外翁巍,在參考[8]驴一,大規(guī)模隨機矩陣被引入作為構(gòu)建模塊,以對由大規(guī)模MIMO(多輸入多輸出)系統(tǒng)收集的海量大數(shù)據(jù)進行建模灶壶,并轉(zhuǎn)發(fā)給基站進行處理和存儲肝断。該模型適用于分布式頻譜感知和網(wǎng)絡(luò)監(jiān)控。配備USRP(通用軟件無線電外圍設(shè)備)的軟件定義的無線電平臺驰凛,用于模擬基站中的天線并演示CPU中的數(shù)據(jù)處理胸懈。
大規(guī)模數(shù)據(jù)和異構(gòu)數(shù)據(jù)可能分別是無線大數(shù)據(jù)的多樣性和準(zhǔn)確性,它們的獨特特性恰响。 基于這些特征趣钱,提出了各種數(shù)據(jù)類型,例如非結(jié)構(gòu)化數(shù)據(jù)胚宦,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)羔挡。 參考文獻中的作者 [9]介紹了一個統(tǒng)一的張量模型來表示從多個來源生成的數(shù)據(jù)。 基于張量擴展運算符间唉,不同的數(shù)據(jù)類型以次張量的形式表示并處理為統(tǒng)一的張量绞灼。 使用上述模型,描述了一種用于降低大數(shù)據(jù)維數(shù)的增量式高階奇異值分解方法呈野。 此外低矮,以智能交通為例,驗證了數(shù)據(jù)表示模型和增量降維方法的性能被冒,可以看出該模型可以作為數(shù)據(jù)表示的大數(shù)據(jù)系統(tǒng)模型來實現(xiàn)军掂。
參考文獻中的作者 [10]基于從覆蓋近700萬人的2G / 3G / 4G網(wǎng)絡(luò)中收集的真實數(shù)據(jù)流量,引入了針對大移動數(shù)據(jù)的移動性分析框架昨悼。 為了構(gòu)建用戶的歷史軌跡蝗锥,作者應(yīng)用了不同的規(guī)則從不同的數(shù)據(jù)源中提取用戶位置,并減少了蜂窩塔之間的振蕩率触。
參考資料中提供了各種格式的非結(jié)構(gòu)化數(shù)據(jù)终议。 [11],它們被描述為一種大數(shù)據(jù)表示形式葱蝗,例如文檔穴张,多媒體,電子郵件两曼,博客皂甘,網(wǎng)站,文本內(nèi)容等悼凑。提出了一種具有NOSQ模式的“分析即服務(wù)”工具偿枕,用于數(shù)據(jù)挖掘和 提取存儲在數(shù)據(jù)中的信息璧瞬。 這些工具還可以用于文本內(nèi)容,例如基于標(biāo)簽的文件(例如HTML渐夸,XML等)和基于非標(biāo)簽的文檔(例如PDF)彪蓬。 然后執(zhí)行一系列的先導(dǎo)測試以驗證所提出的工具。
Data analytics
面對時空維度上的海量數(shù)據(jù)集捺萌,需要更強大的分析理論和方法才能獲得新穎的見解。 在本節(jié)中膘茎,我們將討論幾種常用的技術(shù)桃纯,包括時間序列分析,機器學(xué)習(xí)和博弈論框架披坏。
無線大數(shù)據(jù)具有時空維度态坦,但時態(tài)分析也可以在交通模式識別或交通建模中獲得重要發(fā)現(xiàn)。 參考文獻中的作者 [12]使用時間序列分析來分解規(guī)則和隨機成分棒拂,然后使用時間序列預(yù)測來預(yù)測基于規(guī)則性成分的交通模式伞梯,這顯示出很高的可預(yù)測性。 這項工作為使用時序分析簡化無線網(wǎng)絡(luò)中的時序數(shù)據(jù)提供了一種新穎的方法帚屉。
近幾十年來谜诫,機器學(xué)習(xí)的發(fā)展[13],尤其是深度學(xué)習(xí)[14]攻旦,已大大改善了許多領(lǐng)域的建模和預(yù)測性能喻旷。 它是基于人工神經(jīng)網(wǎng)絡(luò)開發(fā)的,主要基于人腦牢屋,統(tǒng)計學(xué)和應(yīng)用數(shù)學(xué)的知識且预。 深度學(xué)習(xí)[15]作為機器學(xué)習(xí)算法的一個分支,嘗試通過使用多層神經(jīng)元和多個非線性變換[16]來對高級數(shù)據(jù)表示進行建模烙无,以進行大數(shù)據(jù)分析锋谐。 它允許計算機通過構(gòu)建更深的神經(jīng)網(wǎng)絡(luò),從更簡單的概念中構(gòu)建復(fù)雜的概念截酷。
最近涮拗,隨著深度學(xué)習(xí)模型中層數(shù)的增加,當(dāng)它基于大數(shù)據(jù)構(gòu)建時迂苛,它已成為最受歡迎和功能最強大的工具多搀。 此外,由于功能更強大的計算機和更大的數(shù)據(jù)集灾部,對更深層次的網(wǎng)絡(luò)的訓(xùn)練變得更快康铭,更容易。 模型的網(wǎng)絡(luò)層越深赌髓,模型表示原始數(shù)據(jù)的能力就越大从藤。 這將導(dǎo)致更好的模型性能催跪。 盡管近年來已經(jīng)取得了很多成功,特別是在使用深度學(xué)習(xí)的計算機視覺和自動語音識別方面夷野,但是如何設(shè)計用于分析無線大數(shù)據(jù)的深度學(xué)習(xí)模型仍有待深入研究懊蒸。
機器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)在許多其他領(lǐng)域證明了它的力量,參考文獻的作者悯搔。 [17]將深度學(xué)習(xí)和Apache Spark納入了無線通信領(lǐng)域骑丸。 他們提出了基于Apache Spark的可擴展學(xué)習(xí)框架,該框架可以支持分布式深度學(xué)習(xí)妒貌。 通過使用包含數(shù)百萬條記錄的現(xiàn)實世界數(shù)據(jù)集通危,此框架展示了其加速效果。 在參考文獻中 [18]灌曙,作者專注于電信運營商深切關(guān)注的電話變化預(yù)測問題菊碟,并驗證了四種預(yù)測模型的性能:邏輯回歸,隨機森林在刺,SVM(支持向量機)和E-BP(增強后退) 傳播)神經(jīng)網(wǎng)絡(luò)逆害,在三種情況下。
考慮無線大數(shù)據(jù)的網(wǎng)絡(luò)管理和控制問題時蚣驼,博弈論分析可能是分析多個對象(無論是網(wǎng)絡(luò)節(jié)點還是終端節(jié)點)之間交互的強大工具魄幕。 參考文獻中的作者 [19]提出了一種基于多重認(rèn)知主體的分治網(wǎng)絡(luò)管理和控制架構(gòu),并提出了馬爾可夫博弈論建挠毙樱框架梅垄。 此外,他們專注于狀態(tài)空間的構(gòu)造输玷,狀態(tài)轉(zhuǎn)換計算以及并行Q學(xué)習(xí)技術(shù)的融合队丝,這為無線大數(shù)據(jù)網(wǎng)絡(luò)提供了一種合適且有效的建模工具,以及各種學(xué)習(xí)技術(shù)欲鹏。
Conclusion and open problems
無線通信系統(tǒng)(例如5G)的發(fā)展開創(chuàng)了無線大數(shù)據(jù)的新時代机久。可靠且低成本的傳感器的普及赔嚎,社交網(wǎng)絡(luò)的發(fā)展以及諸如無人機和智能交通系統(tǒng)之類的自主系統(tǒng)的發(fā)展膘盖,進一步放大了這一趨勢。
為了完全理解新興的無線大數(shù)據(jù)尤误,這里針對不同通信層的變化以及對各種重要應(yīng)用的影響進行了調(diào)查侠畔。確定了挑戰(zhàn)和機遇,這項調(diào)查可以作為無線大數(shù)據(jù)令人興奮的新研究方向的起點损晤。
無線大數(shù)據(jù)研究存在許多開放性問題软棺。
首先,從電氣工程的角度來看尤勋,如何整合無線大數(shù)據(jù)的內(nèi)在本質(zhì)喘落,以及從計算機科學(xué)的角度來看茵宪,如何融合機器學(xué)習(xí)和數(shù)據(jù)挖掘的力量是未來的挑戰(zhàn)。我們可能依靠信息論瘦棋,隨機矩陣論或其他理論工具來描述和建模無線信道的隨機和非平穩(wěn)性質(zhì)所帶來的相應(yīng)性質(zhì)稀火。
其次,下一代通信系統(tǒng)可以為聚集的大量用戶提供服務(wù)赌朋,并且它們之間的傳輸內(nèi)容可能無法建模為獨立的凰狞。此后,如何對這種依賴性進行建模并使用這種依賴性來提高傳輸效率可能是一個非常有趣的話題沛慢。在這里赡若,大數(shù)據(jù)輔助計算和預(yù)測技術(shù)將在協(xié)助通信研究中發(fā)揮重要作用。