Acoustic-based sensing and applications

A general structure for acoustic-based sensing and applications.png

1 Hardware infrastructure

microphones(record)
speakers(generate)
audio chips(process) acoustic signals

2 Techniques for acoustic-based sensing and applications

signal strength variation(通過一段距離之后蔬蕊，聲學(xué)信號的信號強(qiáng)度會逐漸減弱炕舵，the measurements can be greatly impacted by ambient noises. 為了解決這個問題泣懊，一些研究將信號強(qiáng)度與ToA或者phase change結(jié)合起來)

signal strength.png
phase change【Early studies show the feasibility of using phase changes modulated by Orthogonal Frequency-Division Multiplexing (OFDM) and Continuous Wave (CW) to carry out fine-grained finger movement tracking咕痛，由于正弦波的周期性簿姨，當(dāng)移動距離超過聲學(xué)信號的波長時距误，會產(chǎn)生相同的相位變化，所以僅僅使用phase changes 無法達(dá)到精確的追蹤效果】

phase change.png
Doppler shift （多普勒頻移是指當(dāng)移動臺以恒定的速率沿某一方向移動時扁位，由于傳播路程差的原因准潭，會造成相位和頻率的變化。Researchers utilize Doppler shifts to recognize hand gestures ,monitor driving behavior and track hand movements.）

3 Doppler shifts.png

示例圖如下：

Doppler shift示例圖.png

Time-of-Arrival(ToA是指信號在發(fā)送者和接收者之間的傳播時間域仇，這種方法需要發(fā)射者與接收者精確同步以避免測量誤差) // Frequency Modulated Continuous Wave(FMCW將時差映射到頻移刑然，以便在沒有同步要求的情況下測量到ToA，應(yīng)用于monitoring sleep quality ,heartbeats and constructing floor map)

4 ToA.png

示例圖如下：

FMCW示例圖.png

Time-Diffrence-of-Arrival(TDoA 與FMCW一樣不需要同步暇务，測量一對接收機(jī)接收信號的到達(dá)時間差泼掠，定位目標(biāo)在雙曲線或雙曲面的交叉點，在一對的每個固定接收器產(chǎn)生焦點垦细。)
示例圖如下：

5 TDoA.png
Channel Impulse Response(CIR 表示聲信號的傳播響應(yīng)于發(fā)射信號的散射择镇、衰落和功率衰減的綜合效應(yīng))

6 CIR.png

3 Acoustic-based applications

Recognition and Tracking
1.Daily activity recognition
使用兩種方式實現(xiàn)日常活動識別：兩者的第一步都是數(shù)據(jù)預(yù)處理（消除環(huán)境的干擾并對數(shù)據(jù)規(guī)范化以供以后使用）
??1. machine-learning 對于傳統(tǒng)的機(jī)器學(xué)習(xí)括改，需要手動提取特征以進(jìn)行模型訓(xùn)練腻豌，特贈提取依賴于人類的知識和經(jīng)驗:
????Bodyscope是基于商業(yè)耳機(jī)的可穿戴活動識別器來監(jiān)測嘴巴運動，這項工作是從捕獲的聲音提取聲學(xué)特征（即Mel-Frequency Cepstrum Coeffient(MFCC)）并將其輸送到Support Vector Machine（SVM）嘱能，MFCC是短期功率頻譜的表示吝梅。
???? SoundSense使用當(dāng)前移動設(shè)備監(jiān)測日常活動（例如走路惹骂，喝水苏携，騎車），這項工作從捕獲的聲音提取聲學(xué)特征（即相位对粪，信號強(qiáng)度兜叨，頻率以及帶寬）并且使用決策樹或者M(jìn)arkovmodels將其分類。
??2.Deep learning往往解決了這些限制衩侥，可以通過網(wǎng)絡(luò)模型訓(xùn)練自動學(xué)得特征
????EI利用周圍物體反射的聲學(xué)信號來實現(xiàn)與環(huán)境無關(guān)的活動識別方法国旷，這項工作建立了對手的網(wǎng)絡(luò)以提取接收信號的表示，可以去除不同環(huán)境與個體在看不見的環(huán)境下預(yù)測活動的獨特性茫死。另一項工作是使用聲學(xué)和加速作為輸入并使用基于長短期記憶（LSTM）的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）進(jìn)行人類的活動分類跪但。

daily activity recognition work.png

daily activity recognition.png

?2.Human health and behavioral monitoring
????Health Monitoring：FMCW被用于從人體中提取聲波反射來捕獲細(xì)微的運動（Nandakumar等人檢測睡眠呼吸停止事件；Qian等人設(shè)計心跳監(jiān)測系統(tǒng)，聲心電圖屡久，它提取FMCW信號的信號相位來捕獲由心跳導(dǎo)致的細(xì)微運動）忆首，接著一系列的研究都結(jié)合機(jī)器學(xué)習(xí)技術(shù)來將不同的活動進(jìn)行分類（Ren等人提取聲學(xué)特征（即MFCC）并使用SVM區(qū)別睡眠事件；呼吸監(jiān)聽器提取聲幅的能譜密度被环，并利用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network (CNN)）恢復(fù)駕駛環(huán)境中的精細(xì)呼吸波形）糙及。
????Driving Behavior Monitoring：Yang等人利用車內(nèi)的揚聲器檢測駕駛員的手機(jī)使用，為了實現(xiàn)這個筛欢，兩個研究測量TDoA并協(xié)助計算兩個蜂鳴值之間聲學(xué)樣本數(shù)以檢測車內(nèi)手機(jī)的位置浸锨。ER揭示車內(nèi)的一些不良活動可以通過聲學(xué)信號的多普勒頻移捕獲而得，ER建立梯度模型森林（包含多個分類器識別不同的駕駛行為版姑，并在他們完成50%之前完成以盡早提出警告）柱搜。
?3.Hand gesture recognition
????Hand gesture recognition：多普勒頻移是最自然直接的一種手勢識別方式，其中有四個步驟：1）data preprocessing; 2）Doppler extraction; 3）physical features exhibition; 4）gesture recognition剥险。Point & Connect(P&C)使用線性調(diào)頻脈沖信號（chirp signals）實現(xiàn)裝置配對系統(tǒng)聪蘸，其中用戶僅僅需要朝著目標(biāo)配對裝備做出簡單的手勢，P&C通過同步時鐘估計聲學(xué)信號的 ToAs來測量用戶與候選設(shè)備的距離變化表制。然而P&C需要初始無線通信通道來使源設(shè)備與目標(biāo)設(shè)備連通健爬，為了解決這個限制，Spartacus利用Doppler shift來初始化連接么介，當(dāng)用戶直接向目標(biāo)設(shè)備做出手勢時浑劳，可以觀測到最大頻移。
????Finger gesture recognition：近距離以及更細(xì)粒度的手指動作在人機(jī)交互中越來越受歡迎夭拌，從收到的信號中魔熏，從聲學(xué)信號頻率領(lǐng)域內(nèi)提取的與模式相關(guān)的信息（即幅度譜密度），通過比較提取的特征與輪廓的幅度譜密度歐幾里得距離可識別出手指手勢鸽扁。利用CIR結(jié)合深度學(xué)習(xí)方法（CNN）可以達(dá)到毫米級的手勢識別蒜绽，其性能優(yōu)于基于多普勒和FMCW的方法。

hand gesture recognition.png

recent study of hand gesture recognition.png

?4.Hand movement tracking
手的移動追蹤給人機(jī)交互應(yīng)用提供更加靈活的能力

Acoustic-based hand movement tracking systems.png

Echoloc使用帶有立體揚聲器的智能手機(jī)產(chǎn)生兩個信道線性調(diào)頻脈沖信號來估計手與兩個揚聲器之間的ToAs桶现，通過這種方式躲雅，手的位置就可以確定。
EchoTrack在不需要特殊硬件的情況下骡和，通過計算智能手機(jī)的兩個麥克風(fēng)接收到的聲信號的ToAs來估計手的軌跡（trajectory）相赁，者需要結(jié)合多普勒頻移和ToAs來優(yōu)化追蹤的準(zhǔn)確性，通過計算等式Eq3慰于，手的位置就可以準(zhǔn)確估計出來钮科。
AAMouse通過聲信號的多普勒頻移來實時追蹤手的移動，為了提高穩(wěn)健性婆赠，系統(tǒng)結(jié)合來自不同頻率的估計來執(zhí)行離群點移除绵脯。
CAT通過分析FMCW以及聲信號的多普勒頻移來更一步鞏固追蹤的準(zhǔn)確性，在不需要準(zhǔn)確的同步的情況下，F(xiàn)MCW將時差映射到頻移蛆挫。
LLAP不需要傳統(tǒng)的設(shè)備以及同步時鐘赃承，僅僅使用商業(yè)現(xiàn)成的智能手機(jī)實現(xiàn)毫米級的移動追蹤。LLAP通過計算收到聲信號的相位變化來追蹤手移動悴侵。

LLAP.png

FingerIO使用OFDM技術(shù)來實現(xiàn)細(xì)粒度的手指追蹤瞧剖。

OFDM echo profiles at two time points.png

Strata使用CIR技術(shù)代替原始的接收信號來考慮多徑傳播，由于音頻設(shè)備的布局不同可免，上述大多系統(tǒng)都不能直接部署到傳統(tǒng)的手提電腦抓于。
VPad使用能量特征追蹤水平方向的手運動，多普勒頻移追蹤垂直方向的手運動巴元，并且可以達(dá)到實時以及高準(zhǔn)確追蹤毡咏。
Vernier介紹了一種基于少量樣本的相位變化計算方法并提高了實時追蹤能力驮宴，并非使用FFT逮刨，而是使用一種小的信號窗口來計算相位變化，并且局部最大數(shù)目對應(yīng)于相位變化的周期數(shù)堵泽。
?5.Speech recognition
語音識別的主要步驟包括：信號處理修己、特征提取、識別迎罗。首先信號處理主要包括采樣（混疊aliasing睬愤、濾波filtering）以及頻譜分析（分幀framing、加窗windowing）纹安；此后提取常用特征尤辱，主要有線性預(yù)測倒譜系數(shù)（Linear Predictive Cepstral Coeffiecients(LPCC)）,MFCC,感知線性預(yù)測（Perceptual Linear Prediction(PLP)）；最后識別步驟是將語音信號的觀察特征與假設(shè)句的預(yù)期語音聯(lián)合厢岂。
主要的識別方法有高斯混合模型隱馬爾可夫模型（Gauusian Mixture Model-Hidden Markv Model (GMM-HMM)）以及深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型（Deep Nerual Network-Hidden Markov Model (DNN-HMM)）
HMM是馬爾可夫鏈的擴(kuò)展光督，它可以提供潛在結(jié)果的概率函數(shù)。 GMM表示為高斯概率密度函數(shù)(PDFS)的加權(quán)和塔粒，用于確定HMM的每個狀態(tài)與語音輸入的對應(yīng)程度结借。一些研究不使用GMM，而是使用DNN在HMM狀態(tài)上產(chǎn)生后驗概率作為輸出卒茬。一些研究證實DNN-HMM模型優(yōu)于GMM-HMM模型船老。

Localization and Navigation

Localization and Navigation application.png

1.Ranging and direction finding
這是定位和導(dǎo)航的基本技術(shù)。
Ranging早期研究使用ToA與TDoA技術(shù)圃酵，但需要精確的時鐘同步柳畔，測距分辨率受到很大的限制（15cm，40cm）郭赐，在不需要時鐘同步和特殊硬件的情況下荸镊，BeepBeep設(shè)計了一個叫做兩個時間到達(dá)的經(jīng)過時間的算法（ETOA）來準(zhǔn)確測量設(shè)備之間的距離， ETOAS由兩個設(shè)備單獨計算，設(shè)備之間的距離可以通過將時間持續(xù)時間信息與其對等點交換來導(dǎo)出躬存，由于兩個設(shè)備不同步张惹，所以BeepBeep的更新速率較低，因此需要分配小窗口來分隔來自不同設(shè)備的聲信號岭洲。RF-Beep利用RF和聲學(xué)信號來測量TDoA用以測距宛逗。僅僅實現(xiàn)了半毫米的測距分辨率，這對室內(nèi)定位遠(yuǎn)遠(yuǎn)不滿足盾剩。

Direction Finding早期研究使用聲信號的多普勒頻移執(zhí)行方向查找雷激，平均誤差為18°，并不滿意告私。Swadloon通過從多普勒頻移和慣性傳感器（accelerometer and gyroscope）捕獲的速度相結(jié)合屎暇，將誤差降到2.1°。

Swadloon.png

direction finding.png

?2.Indoor and outdoor localization

Localization work.png

????Passive Indoor Localization許多研究采用額外的傳感器傳輸移動設(shè)備接收的聲學(xué)信號驻粟，以便將基于聲學(xué)的定位富有成效根悼，這種基于聲學(xué)信號的定位稱為被動定位。早期兩篇研究捕獲背景光譜的聲學(xué)指紋來決定室內(nèi)的定位蜀撑，然而這些方法受噪聲的影響很大并且肯能出現(xiàn)高能量代價挤巡，為解決這一問題，使用聲學(xué)信號的ToA成為精確室內(nèi)定位的選擇酷麦。Guoguo通過計算聲學(xué)信號的ToA來定位目標(biāo)位置矿卑，先進(jìn)的信號處理技術(shù)為此工作提供了充足的覆蓋面積，并通過符號交織信號結(jié)構(gòu)來提高聲學(xué)信號的傳輸速率以提升定位的更新速率沃饶。SUTE結(jié)合聲學(xué)信號的多普勒頻移和基于視覺技術(shù)來進(jìn)行室內(nèi)定位母廷，其定位中位值為0.42m，SITE使用角度差異來計算一組位置糊肤，并且基于視覺的技術(shù)得到最終的定位琴昆。盡管這些研究得到很好的定位性能，但受限于額外的基礎(chǔ)設(shè)施（RF,onboard vision sensor,LED light and specialized sonar）轩褐。WalkieLokie通過測量智能手機(jī)和安裝在目標(biāo)對象中的聲學(xué)揚聲器之間的相對位置來定位目標(biāo)氮唯，以便用專門的設(shè)定的脈沖信號來估計ToA鹰服，此方法大大降低了部署成本（僅需智能手機(jī)和頂成本的揚聲器）最楷，但是其平均測距誤差為0.63m厢漩，落后于基于基礎(chǔ)設(shè)施的方法。
????Active Indoor Localization
通過在智能設(shè)備中主動發(fā)送揚聲器的聲學(xué)信號來定位用戶位置拗踢，稱為主動定位脚牍。

active indoor localization.png

active indoor.png

許多研究使用主動定位技術(shù)進(jìn)行基于聲學(xué)的室內(nèi)定位：Beep使用一組分布的聲學(xué)傳感器來定位配備了WiFi同步漫游設(shè)備的用戶，用戶使用配備漫游的設(shè)備來傳輸聲學(xué)信號巢墅，聲學(xué)傳感器接收信號并運用處理單位來估計ToAs诸狭，通過這些傳感器的距離就能確定漫游設(shè)備的位置券膀，這項工作在超過97%的案例中的準(zhǔn)確性為0.6m。Qiu等人使用ToA和信號強(qiáng)度測量來實現(xiàn)手機(jī)對手機(jī)場景高速3D持續(xù)定位驯遇，由于每一個手機(jī)都有兩個麥克風(fēng)芹彬，每一對麥克風(fēng)-揚聲器的結(jié)合體的四個距離可通過ToAs計算，并且通過余弦定律可以導(dǎo)出兩個智能手機(jī)之間的角度叉庐，在90%的案例中定位分辨率在0.14之內(nèi)舒帮。Liu等人開發(fā)一個對等協(xié)助的室內(nèi)定位系統(tǒng)，這個系統(tǒng)結(jié)合了基于聲學(xué)定位與基于WiFi的方法來提高準(zhǔn)確性陡叠。由于發(fā)送和接收聲學(xué)信號的代價玩郊，這三個系統(tǒng)受限于手持移動設(shè)備的電量。 EchoTag借助智能手機(jī)先前位置解決了這一問題枉阵，這項工作首先通過WiFi SSID和tilt確定coarse-grained位置译红，如果信息匹配。系統(tǒng)將在頻域內(nèi)捕獲聲學(xué)特征來估計fine-grained的位置兴溜。上述四個研究都專注于自我定位侦厚，即使用其硬件確定智能手機(jī)的位置。 AMIL則允許智能手機(jī)定位臨近的智能手機(jī)昵慌。 有一些研究則將主動定位和被動定位相結(jié)合假夺，兩臺特定的麥克風(fēng)預(yù)部署淮蜈，一臺智能手機(jī)從兩個麥克風(fēng)測量TDoA來定位智能手機(jī)的位置斋攀，構(gòu)造了被動定位；此后智能手機(jī)傳輸chirp sigal梧田，并測量ToAs來估計隔墻的距離淳蔼，這執(zhí)行了主動室內(nèi)定位；這兩個的結(jié)果相結(jié)合提高了定位性能裁眯。
????Outdoor Localization
一些系統(tǒng)將聲學(xué)傳感擴(kuò)展到室外定位鹉梨，例如ENSBox是一個室外環(huán)境的分布式并且自我校驗的定位系統(tǒng)，包括4-麥克風(fēng)陣列的每一個結(jié)點的定制硬件穿稳，然而安裝大量室外傳感器不太實際存皂。Auto++利用TDoA定位周圍汽車以及使用多普勒頻移測量聲源的運動。Pinna等人使用聲學(xué)傳感器定位槍炮位置逢艘，當(dāng)發(fā)射時旦袋，聲源與聲學(xué)傳感的ToAs被估計來測量他們之間的距離。
?3.Floor map construction
現(xiàn)有的研究通過測量聲學(xué)信號的ToA以及到達(dá)角（Angle-of-Arrival (AoA)）來探測感興趣的區(qū)域內(nèi)的障礙以及構(gòu)建地圖它改，這些方法需要基礎(chǔ)的設(shè)備疤孕，使得在一些應(yīng)用場景中不適用，為了設(shè)計低成本的地圖構(gòu)建方法央拖，隨后的研究利用智能手機(jī)作為信號的傳輸體和接收體祭阀，例如Kashimoto等人將超聲波小裝置整合到智能手機(jī)中以此實現(xiàn)地圖構(gòu)建鹉戚，這項工作首先通過測量聲學(xué)信號的ToAs估計房間的大小和形狀，然后使用智能手機(jī)的移動傳感器來詳細(xì)描述地圖专控。BatMapper在沒有用戶補(bǔ)充設(shè)備的情況下抹凳，實現(xiàn)了多模態(tài)解決方案（即使用慣性傳感器和聲學(xué)信號）來構(gòu)建地圖，具體地伦腐，BatMapper采用慣性傳感器測量智能手機(jī)的弧度却桶，之后，系統(tǒng)使用商業(yè)智能手機(jī)的揚聲器和麥克風(fēng)接收和傳送chirp signals蔗牡，通過分析聲學(xué)信號颖系，BatMapper推導(dǎo)出振幅和ToAs來檢測室內(nèi)不同的空間結(jié)構(gòu)（如雜亂的空間、角落辩越、大開放空間）嘁扼。

different kind of indoor areas.png

其中圖13(a)中表示慣性傳感器檢測的航線方向改變，當(dāng)檢測到航向改變時黔攒，系統(tǒng)會激活基于聲學(xué)的傳感器趁啸。圖13(b)中不同的方向和功率變化展示了不同的區(qū)域（如雜亂區(qū)域、廣角督惰、樓梯出口）不傅。圖13(c)中接收的聲音強(qiáng)度的峰值表示窄角，而降落表示大開放空間赏胚，然而這些需要很大的訓(xùn)練努力來估計參數(shù)访娶。為了不訓(xùn)練，SAMS通過讓一個人帶著智能手機(jī)移動來估計室內(nèi)輪廓觉阅。這項工作使用FMCW來測量關(guān)鍵以及結(jié)構(gòu)化的信息（角落崖疤、群體），需要的訓(xùn)練努力少于BatMapper典勇，具體地劫哼，通過探索其設(shè)計參數(shù)（即帶寬、chirp duration）割笙，在不同環(huán)境下研究其靈敏度权烧，并從其模型中提取FFT特征來定制FMCW模塊，并測量距離與構(gòu)建地圖伤溉。

Security and Privacy
?1.User authentication

user authentication.png

????Voiceprint- and Acoustic Emanation-based User Authentication
在過去的幾十年里般码，使用語音生物識別技術(shù)進(jìn)行認(rèn)證已經(jīng)得到了很好的探索，為了實現(xiàn)基于聲紋的用戶身份驗證谈火，產(chǎn)生了一些方法侈询，包括Gauusian Mixture Model-Universal Background Model (GMM-UBM),GMM-supervector,i-vector model ,Deep Neural Network (DNN)-based models等，GMM-UBM的基本思想是利用高斯概率密度函數(shù)（PDF）的組合來描述語音特征糯耍，以模擬個體的唯一性∪幼郑現(xiàn)有的研究使用來自人類特定行為的可聽聲發(fā)散來進(jìn)行用戶身份驗證囊嘉。周等人使用按鍵動力學(xué)的聲學(xué)發(fā)散來識別用戶身份，這項工作提取某些聲學(xué)特征（即聲學(xué)信號的信號強(qiáng)度革为，MFCC）并進(jìn)一步使用機(jī)器學(xué)習(xí)方法（即SVM）進(jìn)行認(rèn)證扭粱。由于按鍵聲發(fā)射和呼吸聲都在可聽到的頻率范圍內(nèi)，這些方法很容易受到環(huán)境噪聲的干擾震檩。

????Ultrasonic-based User Authenitication
有一些研究使用不可聽的聲學(xué)信號來感知人類行為以進(jìn)行用戶身份驗證琢蛤。Zhang等人測量接收到的聲學(xué)信號的TDoA來區(qū)分人的聲音與機(jī)器的聲音∨茁玻回聲指紋使用智能手機(jī)和正向攝像頭的音頻設(shè)備來提取臉部輪廓以進(jìn)行用戶身份驗證博其，具體來說，使用FMCW收集臉部回聲迂猴，提取聲學(xué)特征應(yīng)用CNN來允許手持手機(jī)姿勢的改變慕淡，同時，使用攝像機(jī)探測臉部地標(biāo)沸毁，結(jié)合特征峰髓，聲學(xué)特征和臉部地標(biāo)被傳送到啊SVM分類器進(jìn)行訓(xùn)練分類。
?2.Two-factor authentication
基于聲學(xué)的傳感被應(yīng)用于雙因素驗證領(lǐng)域息尺，在一個系統(tǒng)中携兵，用戶只有通過了兩個類型的檢測才能授權(quán)進(jìn)入，這些因素可以是知識（如密碼）搂誉、財產(chǎn)（如智能卡）徐紧、或者內(nèi)在的（如指紋）。一些研究專注于新的基于聲學(xué)的方法來檢測移動設(shè)備和瀏覽器之間的接近作為第二因素勒葱。Sound-Proof使用環(huán)境的噪聲在認(rèn)證中作為第二因素來加強(qiáng)智能設(shè)備的安全和隱私浪汪，它測量用戶的智能手機(jī)中接收的環(huán)境噪聲和瀏覽器的相關(guān)性巴柿。智能手機(jī)上的應(yīng)用程序觸發(fā)的通知或者警告聲音被誤認(rèn)為環(huán)境噪聲而使第二因素認(rèn)證失效凛虽。

two factor authentication.png

Home Alone and Listening Watch使用隨機(jī)選擇聲學(xué)信號作為認(rèn)證，Home Alone使用用戶智能手機(jī)產(chǎn)生的主動通知聲音來測量瀏覽器的鄰近广恢，而Listening Watch使用人聲作為第二因素檢測智能手表與瀏覽器的鄰近凯旋。Proximity-Proof抵抗了man-in-the-middle and co-located的攻擊，通過OFDM調(diào)制聲學(xué)信號而不是WiFi或者其他網(wǎng)絡(luò)聯(lián)接來傳輸雙因素認(rèn)證的的響應(yīng)到瀏覽器钉迷，在傳輸過程中至非，獨特的音頻指紋被提取出來以此驗證傳輸信號的智能手機(jī)，一種雙向測距的方法測量兩個設(shè)備之間的的距離可以抵制co-located攻擊糠聪，因此坐在用戶旁邊的攻擊者不能非法登錄荒椭。
?3.Keystroke snooping attacks
????Keyboard Keystroke Snooping Attacks
提取鍵盤的聲波發(fā)散的信號處理原語（即FFT、倒譜）以及使用機(jī)器學(xué)習(xí)技術(shù)（即神經(jīng)網(wǎng)絡(luò)舰蟆、線性分類）進(jìn)行按鍵窺探趣惠。Berger等人結(jié)合字典和發(fā)散聲波設(shè)計了一個更加實際的按鍵窺探攻擊狸棍，并且不需要進(jìn)行任何訓(xùn)練。Zhu等人在不需要字典的情況下執(zhí)行了與上下文無關(guān)的按鍵窺探攻擊味悄，這項工作在需要三臺協(xié)作智能手機(jī)下草戈，測量聲學(xué)信號的TDoA來定位潛在的按鍵位置。Liu等人只把一部智能手機(jī)靠近鍵盤以捕獲按鍵聲音侍瑟。

KeyStroke snooping attacks.png

????Touch-Screen Patterns and Keystroke Eavesdropping Attacks
觸屏操作例如繪畫打字等很少產(chǎn)生可聽見的聲音唐片，模式和按鍵窺探攻擊僅僅在主動發(fā)送不可聽的聲波信號下才可能實現(xiàn)。PatternListener利用這些信號的相位變化來追蹤手指移動涨颜，以此竊聽安卓智能手機(jī)未解鎖模式费韭，但是這項工作需要受害手機(jī)提供基于聲學(xué)信號的傳感，在現(xiàn)實攻擊場景中不太實際庭瑰。相反揽思，KeyListener通過分析反饋的信號主動發(fā)送不可聽聲學(xué)信號以及入侵人的按鍵。本工作利用聲信號的能量衰減來確定粗粒度的擊鍵區(qū)域见擦，并結(jié)合兩個擊鍵之間的手指運動钉汗，開發(fā)了一種基于幾何的方法以提高識別性能。
?4.Audio adversrial attacks
可以產(chǎn)生針對基于DNN語音識別模型的對抗樣本鲤屡，這些對抗對于人類而言是無法觀察的损痰，但是語音助手系統(tǒng)可以被隱藏地卡住、錯誤識別命令或者秘密控制酒来，例如CommanderSong在受害者無意識的情況下將語音命令嵌入到一些音樂中以此攻擊語音助手系統(tǒng)卢未。Adversarial Music通過不可觀察的對抗性音樂阻塞語音助手，這項工作目標(biāo)是攻擊尾音檢測系統(tǒng)以及創(chuàng)建可以在空中物理發(fā)射的實時拒絕服務(wù)（Denaial-of-Service（DoS））攻擊堰汉。沒有考慮在空中傳播的影響（如設(shè)備失真辽社、信道效應(yīng)、環(huán)境噪聲）Li等人首先測量CIR并將其集成到針對實際音頻示例的對抗性示例訓(xùn)練過程中翘鸭，這樣可以使生成的對抗性示例在物理世界中播放時保持有效滴铅。Metamorph從一些小擾動測量中捕獲核心失真影響，如何使用域自適應(yīng)算法精華擾動來提高攻擊準(zhǔn)確性和范圍就乓。
?5.Acoustic vibration attacks
Accelword使用移動設(shè)備內(nèi)置的加速器來提取人們語音中的熱詞汉匙，使用高采樣率，Pitchln在物聯(lián)網(wǎng)設(shè)備中使用運動傳感器來竊聽語音生蚁，作者采用一組與時間平行的傳感器來進(jìn)一步提高采樣率噩翠，稱為時間交錯模擬數(shù)字轉(zhuǎn)換（Time Interleaved Analog-Digital-Conversion（TI-ADC））。與先前的研究不同邦投，Spearphone探索使用手機(jī)內(nèi)置的運動傳感器來揭示智能手機(jī)揚聲器的聲音的可能性伤锚，Spearphone可以執(zhí)行性別分類、用戶驗證以及語音識別甚至重構(gòu)志衣。
?6.Voice assistant privacy protection

voice assistant system.png

兩個隱私問題：其一是聲音記錄上傳到云端而不是保存在本地屯援；其二是系統(tǒng)可能驗證錯誤導(dǎo)致敏感信息泄露剂娄。
隨著移動邊緣計算的進(jìn)步，相關(guān)研究創(chuàng)建了分散聲音處理系統(tǒng)以減少對云端的依賴玄呛，而不必向云端上傳敏感語音阅懦，You Talk Too Much and Spreech在他們向云端傳送要處理的輸入語音之前，在本地凈化語音輸入徘铝，其他研究使用機(jī)器學(xué)習(xí)技術(shù)來檢測與語音助手系統(tǒng)交談的惡意命令來幫助用戶配置第三方的授權(quán)耳胎。Vauth使用可穿戴設(shè)備收集用戶表面的振動并與語音助手系統(tǒng)收到的語音控制進(jìn)行比較。另一些工作結(jié)合多因素（包括聲音惕它、視頻怕午、頭部以及身體運動）來保障認(rèn)證。Blue等人提出了使用移動設(shè)備與物聯(lián)網(wǎng)設(shè)備的雙因素認(rèn)證系統(tǒng)（besides of voice biometrics）淹魄，他們使用移動設(shè)備與物聯(lián)網(wǎng)設(shè)備的麥克風(fēng)來測量到達(dá)方向（Direction-of-Arrival(DoA)）以此來定位命令的聲源郁惜，只有聲源靠近移動設(shè)備時，語音助手系統(tǒng)才接收聲音甲锡。

Short-range Communication

communication work.png

short range communication.png

?1.Audible Communication
Dhwani使用現(xiàn)成的手機(jī)實現(xiàn)了短距離通信并利用全可聽頻帶達(dá)到了2.4kps的數(shù)據(jù)率兆蕉，這個系統(tǒng)使用以O(shè)FDM以及鍵位頻移來減少環(huán)境噪聲以及振幅的影響。Priwhiper使用8-10kHz可聽頻帶來實現(xiàn)1kps吞吐量的短程通信缤沦，其采用頻移鍵位來調(diào)制信號并估計環(huán)境噪聲的電平來協(xié)助傳輸機(jī)決定信號強(qiáng)度虎韵。Dhwani and PriWhisper應(yīng)用友好的阻塞技術(shù)來執(zhí)行安全通信，具體而言缸废，當(dāng)發(fā)射機(jī)傳輸數(shù)據(jù)信號時包蓝，接收機(jī)傳輸隨機(jī)干擾信號，由于只有接收機(jī)才知道阻塞信號企量，合法的接收機(jī)可以解碼信號而攻擊者不能测萎，但是，通信中的可聽聲在人類感知的頻率范圍內(nèi)届巩，引起不良好的用戶體驗硅瞧。
?2.Comunication Through Embedding Message in Common Audio
為了提高用戶體驗，一些研究使用信息隱藏技術(shù)來進(jìn)行聽覺聲學(xué)通信姆泻，早期兩個系統(tǒng)使用OFDM調(diào)制數(shù)據(jù)并將信號嵌入到常規(guī)音頻信息中實現(xiàn)不可察覺的聲學(xué)通信零酪。Dolphin利用人類聲覺系統(tǒng)不掩藏效應(yīng)在人類不可察覺的情況下同時傳輸數(shù)據(jù)攜帶信號以及日常聲音，然而這些研究僅能實現(xiàn)低于1kps的吞吐量拇勃，并且通信過程也會產(chǎn)生可聽見的聲音。然而孝凌，與其他基于機(jī)器學(xué)習(xí)的方法類似方咆，這項工作需要額外的培訓(xùn)工作，這阻礙了它的廣泛應(yīng)用蟀架。從聲傳感模式中消除位置和方位信息仍然是一個有待解決的問題瓣赂。
?3.Near-Ultrasonic Communication
Chirp使用近超聲帶寬chirp信號來支持長距離的通信（25m）榆骚，這項工作使用chirp信號的預(yù)期自結(jié)合特性（即chirp二進(jìn)正交鍵）來消除頻率和時間選擇的衰退和提高聲波信號的傳輸質(zhì)量。開發(fā)新的同步和攜帶傳感算法來區(qū)分chirp信號和環(huán)境噪聲并進(jìn)行通信煌集。U-Wear在可穿戴醫(yī)療設(shè)備中實現(xiàn)超聲通信妓肢，包括物理層、數(shù)據(jù)鏈路層苫纤、網(wǎng)絡(luò)層碉钠，這項工作采用高斯最小頻移鍵控和正交頻分復(fù)用（OFDM）技術(shù)分別實現(xiàn)窄帶和寬帶信號傳輸，在2 kHz的帶寬范圍內(nèi)可以實現(xiàn)2.7kbps的吞吐量卷拘。由于頻帶較窄喊废，所以這種方法的吞吐量受到限制。
?4.Ultrasonic Communication
兩項研究發(fā)現(xiàn)麥克風(fēng)的非線性特性栗弟，這可以在聲波信號的超聲波頻帶上進(jìn)行無線通信污筷。具體而言，Backdoor使用FM調(diào)制在超聲信號的數(shù)據(jù)乍赫，以達(dá)到非語音性瓣蛀，吞吐量達(dá)到4kps。Dolphin Attack通過AM調(diào)制超聲波攜帶信號上的語音命令雷厂，發(fā)出無聲的語音命令攻擊揪惦。最近的一項研究創(chuàng)新性地將OFDM復(fù)用技術(shù)與非線性模型和AM一起用于在超聲頻帶中的多個窄帶信道上傳輸數(shù)據(jù)，以便同時實現(xiàn)高吞吐量（即47.49kbps）和不可聽性罗侯。
?5.Water-based Medium Acoustic Communication
最近一項研究設(shè)計了與正交相移鍵控調(diào)制相結(jié)合的專用硬件器腋，以進(jìn)一步實現(xiàn)礦物油通信的250kbps的吞吐量。也有研究在人體組織中傳輸非常短的超聲脈沖钩杰，其占空比自適應(yīng)可調(diào)纫塌，并遵循偽隨機(jī)自適應(yīng)跳時模式來實現(xiàn)通信。

4 Limitations and discussions

Interference of Environmental Noises
當(dāng)模型中參入環(huán)境噪音時讲弄，系統(tǒng)的性能會有所下降措左，另一方面，由于普遍存在的聲學(xué)噪聲避除，聲學(xué)通信系統(tǒng)必須縮小其操作帶寬怎披，以減輕噪聲的不利影響，這將影響通信的吞吐量瓶摆。在未來的研究中凉逛，需要更多的努力，如多聲信號的智能剖面校準(zhǔn)和先進(jìn)的數(shù)據(jù)濾波/機(jī)器學(xué)習(xí)技術(shù)群井，以提高基于聲學(xué)信號對噪聲的抵制力状飞。
Impact of Location and Orientation
除了環(huán)境變化之外，用戶的定位和方向?qū)诼晫W(xué)的系統(tǒng)性能至關(guān)重要，早起的研究使用聲學(xué)信號的多普勒頻移效應(yīng)诬辈，來識別駕駛行為酵使，這要求用戶每次在同一位置和方向以保持識別性能。此外焙糟，對于大多數(shù)涉及人類的活動口渔，不同的位置和方位會導(dǎo)致聲波信號感知的ToA/TDoA模式發(fā)生不同的變化
Impact of Multi-user in the Sensing Area
大部分的基于聲學(xué)的傳感方法只能關(guān)注單個用戶，為了解決這一問題穿撮，系統(tǒng)將除了目標(biāo)用戶之外的周圍的用戶的運動視為干擾缺脉，并使用不同的方法（如查分CIR，信號梯度等）來減弱它們混巧，然而這些研究并不能從本質(zhì)上解決多用戶傳感問題枪向，因此未來的潛在方向可能在于融合其他傳感器(例如相機(jī)、WiFi)咧党，而不僅僅是使用聲學(xué)信號秘蛔。
Concern of Security and Privacy
最近的研究表明使用聲學(xué)信號對流行的語音助手系統(tǒng)（如Apple siri and Google Now）發(fā)射語音對抗攻擊的可能性，有一些研究表明智能手機(jī)的慣性傳感器的讀數(shù)可以被用來揭示語音信息（如說話者的性別和語音內(nèi)容）傍衡。為了對抗策略深员，一些研究建議用戶提高和控制麥克風(fēng)來抵抗按鍵窺探攻擊和聲學(xué)振幅攻擊，另一項研究使用機(jī)器學(xué)習(xí)技術(shù)來對抗惡意的隱藏語音命令蛙埂，利用運動傳感器對語音誘發(fā)振動攻擊的防御策略仍然是一個有待解決的問題倦畅。