姓名:彭帥 學(xué)號(hào):17021210850
轉(zhuǎn)載自:https://wenku.baidu.com/view/0da70d3184254b35effd348c.html?from=search
【嵌牛導(dǎo)讀】:手勢(shì)識(shí)別是屬于計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的一個(gè)將人類手勢(shì)通過(guò)數(shù)學(xué)算法針對(duì)人們所要表達(dá)的意思進(jìn)行分析辕近、判斷并整合的交互技術(shù)鸵熟。
【嵌牛鼻子】:手勢(shì)識(shí)別
【嵌牛提問(wèn)】:手勢(shì)識(shí)別綜述
【嵌牛正文】:
手勢(shì)在不同的學(xué)科中有不同含義返干,而在交互設(shè)計(jì)方面次伶,手勢(shì)與依賴鼠標(biāo)、鍵盤(pán)等進(jìn)行操控的區(qū)別是顯而易見(jiàn)的养葵,那就是手勢(shì)是人們更樂(lè)意接受的蒿辙、舒適而受交互設(shè)備限制小的方式测秸,而且手勢(shì)可供挖掘的信息遠(yuǎn)比依賴鍵盤(pán)鼠標(biāo)的交互模式多。在學(xué)術(shù)界系宜,人們?cè)噲D對(duì)手勢(shì)定義一個(gè)抽象照激、明確而簡(jiǎn)潔的概念以為手勢(shì)及其應(yīng)用的研究提供依據(jù)。1990年Eric
Hulteen和Gord Kurtenbach曾發(fā)表的題為“Gestures in Human-Computer Communication”中定義:“手勢(shì)為身體運(yùn)動(dòng)的一部分盹牧,它包括一部分信息俩垃,而且是一種能被觀察到的有意義的運(yùn)動(dòng)励幼。揮手道別是一種手勢(shì),而敲擊鍵盤(pán)不是一種手勢(shì)口柳,因?yàn)槭种傅倪\(yùn)動(dòng)沒(méi)有被觀察苹粟,也不重要,它只表示鍵盤(pán)被按下這一動(dòng)作跃闹∏断鳎”
從定義上講,手勢(shì)識(shí)別是一種利用數(shù)學(xué)算法望艺,包括計(jì)算機(jī)圖形學(xué)掷贾,輔以攝像頭、數(shù)據(jù)手套等輸入工具荣茫,針對(duì)收集到的信息想帅,比如手掌、手指各關(guān)節(jié)的方位啡莉、角度等進(jìn)行判斷港准、分析并作出正確回復(fù)的技術(shù)。許多測(cè)試品已開(kāi)始使用三維手勢(shì)識(shí)別來(lái)提升準(zhǔn)確率及反應(yīng)速度咧欣。但是浅缸,分析手勢(shì)的特點(diǎn),回顧手勢(shì)識(shí)別的發(fā)展歷史魄咕,可以更好地把握其發(fā)展脈絡(luò)衩椒,從而對(duì)未來(lái)手勢(shì)識(shí)別的潛力與可能方向做出基本判斷。
2.發(fā)展過(guò)程
手勢(shì)是任意的哮兰,手不同部位的方向毛萌、角度及彎曲程度等的不同信息可能會(huì)有實(shí)際意義上的天壤之別。所以手勢(shì)識(shí)別應(yīng)該基于用戶與程序喝滞、設(shè)備之間的約定阁将。
針對(duì)手勢(shì)的任意性,最初的手勢(shì)識(shí)別主要使用各種與手及手臂通過(guò)直接的接觸式有線機(jī)器設(shè)備進(jìn)行數(shù)據(jù)采集右遭。它可以直接檢測(cè)諸如手指做盅、關(guān)節(jié)及手臂的方位、角度等窘哈。典型的設(shè)備有數(shù)據(jù)手套等吹榴。通過(guò)內(nèi)含許多傳感器的數(shù)據(jù)手套,可以十分精確地獲取手勢(shì)識(shí)別所需的各種信息滚婉,此外其反應(yīng)速度图筹、識(shí)別準(zhǔn)確度、穩(wěn)定性也得到了保障满哪。但是該設(shè)備在實(shí)際中的造價(jià)比較高昂婿斥,更重要的是會(huì)對(duì)手的靈活性有一定限制劝篷,因而沒(méi)有得到有效推廣。此后推出的穿戴式光學(xué)標(biāo)記可通過(guò)紅外線將手指及手掌變化傳輸?shù)狡聊簧厦袼蓿脖3至藬?shù)據(jù)手套的優(yōu)點(diǎn)娇妓。該設(shè)備雖減輕了重量,提高了手部的靈活性活鹰,但是仍需較復(fù)雜的輸入輸出轉(zhuǎn)換設(shè)備哈恰,此外也會(huì)對(duì)手部動(dòng)作的自然性產(chǎn)生影響。
基于視覺(jué)的手勢(shì)識(shí)別技術(shù)能夠使手部動(dòng)作的表達(dá)更加自然志群,同時(shí)也可以為未來(lái)其他的肢體識(shí)別技術(shù)所應(yīng)用着绷,因此成為了主流。手型模型是通過(guò)計(jì)算機(jī)圖形學(xué)對(duì)二維的手勢(shì)圖像屬性锌云,如手的顏色荠医、紋理、邊界桑涎、輪廓等進(jìn)行分析彬向。該方法主要使用三種組件:探測(cè)組件、運(yùn)動(dòng)軌跡組件攻冷、識(shí)別組件娃胆。探測(cè)組件負(fù)責(zé)有針對(duì)性地收集有特點(diǎn)的視覺(jué)信號(hào)并將手勢(shì)信號(hào)整理成碼。運(yùn)動(dòng)軌跡組件負(fù)責(zé)實(shí)時(shí)定位等曼,雖然它對(duì)于只需靜態(tài)手勢(shì)的設(shè)備并不是必要的組件里烦,但是其可以優(yōu)化手部中各部位的運(yùn)動(dòng)曲線,提升設(shè)備精度禁谦。
基于視覺(jué)的手勢(shì)識(shí)別按手勢(shì)的動(dòng)態(tài)特點(diǎn)可以分為靜態(tài)的與動(dòng)態(tài)的兩種胁黑,靜態(tài)手勢(shì)識(shí)別針對(duì)單個(gè)手型,主要包括手勢(shì)分割及手勢(shì)識(shí)別兩部分枷畏,前者是后者的基礎(chǔ)别厘。靜態(tài)手勢(shì)識(shí)別方法難以識(shí)別區(qū)分度較小的手勢(shì)、實(shí)時(shí)性差拥诡,因此向動(dòng)態(tài)手勢(shì)識(shí)別過(guò)渡已經(jīng)成為一種趨勢(shì)。
大部分手勢(shì)識(shí)別應(yīng)用是將每個(gè)手勢(shì)作為一個(gè)整體氮发,之后通過(guò)計(jì)算相似度來(lái)進(jìn)行模式匹配渴肉。這種方法顯而易見(jiàn)的缺點(diǎn)是只有當(dāng)收集到的數(shù)據(jù)與預(yù)設(shè)模型的相似程度很高時(shí)才會(huì)比較準(zhǔn)確,另外對(duì)于某些比較相似的手勢(shì)區(qū)分效果不好爽冕。
3.研究方法
目前常用的手勢(shì)識(shí)別研究方法主要有以下幾種:
(1)基于人工神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別
神經(jīng)網(wǎng)絡(luò)基于統(tǒng)計(jì)和概率學(xué)方法的組織和判斷具有抗干擾仇祭、自學(xué)習(xí)、易控制和處理高效的特點(diǎn)颈畸,可用于處理信息缺失的模式并進(jìn)行模式推廣乌奇。如果整個(gè)神經(jīng)網(wǎng)絡(luò)包括的全部神經(jīng)元都是時(shí)空效能好的算法没讲,那就可以判斷手勢(shì)細(xì)微部分的運(yùn)動(dòng)。但人工神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間序列處理能力不強(qiáng)礁苗。在靜態(tài)手勢(shì)的識(shí)別中應(yīng)用較多爬凑,動(dòng)態(tài)手勢(shì)識(shí)別中幾乎沒(méi)有應(yīng)用。此外试伙,盡管對(duì)神經(jīng)網(wǎng)絡(luò)的相關(guān)研究及應(yīng)用已經(jīng)有了幾十年嘁信,但是該方法本身的復(fù)雜性使成功構(gòu)建一個(gè)效果良好的神經(jīng)網(wǎng)絡(luò)對(duì)大多數(shù)人比較困難。
(2)基于隱馬爾可夫模型的手勢(shì)識(shí)別
隱馬爾可夫模型是一種能細(xì)致描述信號(hào)的時(shí)空變化統(tǒng)計(jì)分析模型疏叨,適用于動(dòng)態(tài)手勢(shì)的識(shí)別潘靖。由于其分析復(fù)雜,計(jì)算量大蚤蔓,速度慢卦溢,故而大多采用離散馬爾可夫模型。
(3)基于幾何特征的手勢(shì)識(shí)別秀又,包括手勢(shì)分割法與幾何特征法
手勢(shì)分割包括2種方法:?jiǎn)文恳曈X(jué)和立體視覺(jué)单寂。基于單目視覺(jué)的方法又分為基于徒手的表觀特征(膚色涮坐,輪廓)凄贩;人為增加限制,如要求使用者戴上有色手套及各種光學(xué)標(biāo)識(shí)袱讹;建立數(shù)據(jù)庫(kù)的方法疲扎。
手勢(shì)的幾何特征指手勢(shì)的邊緣(如輪廓)和手勢(shì)區(qū)域特征(如手掌顏色、面積)捷雕〗飞ィ基于幾何特征的手勢(shì)識(shí)別技術(shù),大多采用各種距離公式進(jìn)行模板匹配救巷,如量度度量空間中真子集之間距離的Hausdorff距離等壶熏。幾何特征識(shí)別方法主要有3種:模板匹配法(自動(dòng)提取每一幀特征圖像與模板庫(kù)匹配后識(shí)別手勢(shì),多用于靜態(tài)手勢(shì)識(shí)別)浦译;神經(jīng)網(wǎng)絡(luò)法棒假,統(tǒng)計(jì)分析法(如隱馬爾可夫模型法HMM)等。
動(dòng)態(tài)手勢(shì)識(shí)別的算法比較復(fù)雜精盅。除了進(jìn)行手勢(shì)識(shí)別的算法外帽哑,還需要其他輔助算法及過(guò)程。
某些具有手部整體運(yùn)動(dòng)軌跡的手勢(shì)可以是肢體動(dòng)作的一部分叹俏,比如揮手妻枕、打招呼等。這些手勢(shì)識(shí)別需要準(zhǔn)確地從手腕部對(duì)手勢(shì)及手臂進(jìn)行識(shí)別并分割。此外屡谐,在動(dòng)態(tài)手勢(shì)識(shí)別中還需同時(shí)進(jìn)行方位定位及識(shí)別工作述么,其核心是動(dòng)態(tài)時(shí)間空間躍遷算法(DSTW),一種可以在時(shí)間空間成對(duì)排列搜索請(qǐng)求及模型手勢(shì)的算法愕掏。
此外度秘,涉及隨機(jī)信號(hào)及過(guò)程的光譜分析法已經(jīng)在大量科學(xué)學(xué)科中使用了幾十年,盡管隨機(jī)性會(huì)給時(shí)間域特性分析帶來(lái)困難亭珍,像特征值及頻率仍然是有價(jià)值的光譜信息敷钾。傅里葉分析是頻率域光譜分析的常見(jiàn)方法。
盡管存在諸多的方法肄梨,而且手勢(shì)識(shí)別仍在不斷發(fā)展中阻荒,但是手勢(shì)識(shí)別本身的特點(diǎn)在某些方面成為了障礙。與人臉識(shí)別最顯著的區(qū)別是众羡,基于圖像的手勢(shì)識(shí)別與人臉識(shí)別雖然都是根據(jù)二維圖像侨赡,但是手部沒(méi)有類似人臉那樣豐富的可以標(biāo)記及區(qū)分的數(shù)據(jù)特征對(duì)象。人臉的表情豐富粱侣,可以作為理想的數(shù)據(jù)庫(kù)羊壹。典型的人臉切爾諾夫模型擁有18個(gè)變量,而自1973年來(lái)經(jīng)過(guò)幾十年的發(fā)展齐婴,面部特征又得到了豐富油猫,非對(duì)稱的切爾諾夫臉可顯示多達(dá)36維的臉部特征。手部的特征明顯要少得多柠偶,基本上就是各關(guān)節(jié)情妖、手掌的坐標(biāo),指尖的朝向等诱担。而且臉部特征基本上是在一個(gè)平面上的毡证,沒(méi)有旋轉(zhuǎn)特征,臉部的自由度小蔫仙。手部在手勢(shì)定位及旋轉(zhuǎn)上至少需要6維信息料睛,包括手部的三維坐標(biāo)及三維方向。而完全對(duì)手勢(shì)進(jìn)行分辨需要超過(guò)20個(gè)的自由度變量摇邦,這使得手勢(shì)的甄別十分復(fù)雜恤煞。
[if !supportLists]4.[endif]當(dāng)前的應(yīng)用
(1)用于虛擬環(huán)境的交互
手勢(shì)識(shí)別可以用于虛擬制造和虛擬裝配、產(chǎn)品設(shè)計(jì)等施籍。虛擬裝配通過(guò)手的運(yùn)動(dòng)直接進(jìn)行零件的裝配,同時(shí)通過(guò)手勢(shì)與語(yǔ)音的合成來(lái)靈活的定義零件之間的裝配關(guān)系阱州。還可以將手勢(shì)識(shí)別用于復(fù)雜設(shè)計(jì)信息的輸入。
(2)用于手語(yǔ)識(shí)別法梯。
手語(yǔ)是聾啞人使用的語(yǔ)言,是由手型動(dòng)作輔之以表情姿勢(shì)由符號(hào)構(gòu)成的比較穩(wěn)定的表達(dá)系統(tǒng),是一種靠動(dòng)作Π視覺(jué)交際的語(yǔ)言。手語(yǔ)識(shí)別的研究目標(biāo)是讓機(jī)器“看懂”聾人的語(yǔ)言。手語(yǔ)識(shí)別和手語(yǔ)合成相結(jié)合,構(gòu)成一個(gè)“人2機(jī)手語(yǔ)翻譯系統(tǒng)”,便于聾人與周?chē)h(huán)境的交流立哑。手語(yǔ)識(shí)別同樣分為基于數(shù)據(jù)手套的和基于視覺(jué)的手語(yǔ)識(shí)別兩種夜惭。基于DGMM的中國(guó)手語(yǔ)識(shí)別系統(tǒng)選取Cyberglove型號(hào)數(shù)據(jù)手套作為手語(yǔ)輸入設(shè)備,采用了動(dòng)態(tài)高斯混合模型DGMM(DynamicGaussianMixtureModel)作為系統(tǒng)的識(shí)別技術(shù),可識(shí)別中國(guó)手語(yǔ)字典中的274個(gè)詞條,識(shí)別率為98.2%铛绰。
(3)用于多通道诈茧、多媒體用戶界面。
正如鼠標(biāo)沒(méi)有取代鍵盤(pán),手勢(shì)輸入也不能取代鍵盤(pán)捂掰、鼠標(biāo)等傳統(tǒng)交互設(shè)備,這一方面由于手勢(shì)識(shí)別的設(shè)備和技術(shù)問(wèn)題,另一方面也由于手勢(shì)固有的多義性敢会、多樣性、差異性这嚣、不精確性等特點(diǎn)鸥昏。手勢(shì)識(shí)別要想取得比較高的識(shí)別率,仍有很長(zhǎng)的路要走。手勢(shì)輸入在人機(jī)交互中應(yīng)用的精髓不在于用來(lái)獨(dú)立地用作空間指點(diǎn),而是為語(yǔ)言姐帚、視線吏垮、唇語(yǔ)等交互手段通道提供空間的或其他的約束信息,以消除在單通道輸入時(shí)存在的歧義。這種做法是試圖以充分性取代精確性罐旗。
(4)用于機(jī)器人機(jī)械手的抓取
機(jī)器人機(jī)械手的自然抓取一直是機(jī)器人研究領(lǐng)域的難點(diǎn)膳汪。手勢(shì)識(shí)別,尤其是基于數(shù)據(jù)手套的手勢(shì)識(shí)別的研究對(duì)克服這個(gè)問(wèn)題有重要的意義,是手勢(shì)識(shí)別的重要應(yīng)用領(lǐng)域之一。
5.前景
提供一個(gè)自然而且有效的人機(jī)交互界面始終是人機(jī)交互研究的目的九秀。那么手勢(shì)識(shí)別以后的發(fā)展也要圍繞這一點(diǎn)遗嗽。在未來(lái)的發(fā)展中,口語(yǔ)鼓蜒、手勢(shì)和人臉在虛擬環(huán)境中的互補(bǔ)是必要的痹换。因?yàn)槭中斡袃煞N建模方式:基于三維的建模和基于圖像的建模∮呀矗基于三維的建模有強(qiáng)大的表達(dá)能力晴音,幾乎能夠表達(dá)所有的手形,但是缺乏效率缔杉。而后者簡(jiǎn)單高效锤躁,但是缺乏通用性。手勢(shì)由一段時(shí)間內(nèi)的一系列手形組成或详。手勢(shì)的分解和分類是手勢(shì)識(shí)別的兩個(gè)重要問(wèn)題系羞。在多用戶虛擬環(huán)境中,人臉又可以作為區(qū)分用戶的屬性霸琴。只有綜合利用他們椒振,才能在人機(jī)交互系統(tǒng)中產(chǎn)生深遠(yuǎn)的影響。
然而在手勢(shì)識(shí)別的發(fā)展中還有以下幾個(gè)難點(diǎn):現(xiàn)有的手勢(shì)識(shí)別方法的局限性:?jiǎn)我活伾蜢o態(tài)背景梧乘;干凈的膚色分割澎迎;手腕的界定庐杨;手動(dòng)初始化。到目前為止夹供,大多數(shù)研究都集中在靜態(tài)手勢(shì)識(shí)別技術(shù)灵份,而我們不僅要對(duì)手勢(shì)進(jìn)行跟蹤,還要進(jìn)行識(shí)別哮洽,其計(jì)算工作量很大且速度慢填渠,不能用于實(shí)時(shí)識(shí)別系統(tǒng)。
當(dāng)前阻止我們進(jìn)行實(shí)時(shí)識(shí)別的難點(diǎn)有手勢(shì)目標(biāo)檢測(cè)困難手勢(shì)目標(biāo)識(shí)別困難鸟辅。當(dāng)前還未能找到解決問(wèn)題的理想方法氛什,針對(duì)具體的某一系統(tǒng),在實(shí)現(xiàn)時(shí)要假設(shè)一定的限制條件匪凉,以達(dá)到較好的識(shí)別效果枪眉。
雖然有許多許多的困難,但是現(xiàn)在全世界已有不少工作者投入到手勢(shì)識(shí)別這項(xiàng)研究中洒缀,例如:美國(guó)的麻省理工學(xué)院瑰谜,喬治理工學(xué)院,加州圣何塞公司等树绩。如上所言萨脑,這項(xiàng)研究肯定有許多的難點(diǎn)問(wèn)題需要去思考,去克服饺饭。在他發(fā)展的道路上渤早,我認(rèn)為分析師拉茲羅所言的:“無(wú)論何時(shí),如果你想引進(jìn)一種新的用戶界面瘫俊,他是否簡(jiǎn)單和容易操作總是成敗的關(guān)鍵鹊杖。當(dāng)年鼠標(biāo)問(wèn)世時(shí)也不是一下子就得到了大眾的接受】秆浚”非常適合此處骂蓖。所以無(wú)論是學(xué)生還是公司,只要堅(jiān)持對(duì)該系統(tǒng)的研究川尖,必然會(huì)獲得成功登下。
目前多個(gè)科技公司都紛紛推出了自己的手勢(shì)識(shí)別產(chǎn)品或申請(qǐng)專利。2012年叮喳,Leap Motion橫空出世被芳。作為一種繼Kinect之后又一款革命性的交互產(chǎn)品,它只需將其用USB連接到電腦上馍悟,便可以準(zhǔn)確識(shí)別出來(lái)顯示器前方的動(dòng)作畔濒。2016年4月,蘋(píng)果公司獲得了來(lái)自美國(guó)專利商標(biāo)局一項(xiàng)新專利的批準(zhǔn)锣咒。通過(guò)Apple Watch上多種傳感器的檢測(cè)侵状,iPhone可轉(zhuǎn)化成文字或語(yǔ)音消息赞弥,實(shí)現(xiàn)忽略來(lái)電、靜音等功能壹将。此外嗤攻,2016年4月2日公布的三星公司為VR研發(fā)的新傳感器允許用戶凌空操作VR應(yīng)用,可以通過(guò)虛擬現(xiàn)實(shí)世界中瞄準(zhǔn)線實(shí)現(xiàn)菜單诽俯、圖標(biāo)、照片承粤、視頻等的點(diǎn)擊運(yùn)行暴区,而完全不需要使用到設(shè)備上的任何真實(shí)按鈕。