這次AIPM知識框架系列的第二篇內(nèi)容,如需了解第一篇《從0開始搭建產(chǎn)品的AI認(rèn)知體系》可以「點(diǎn)擊這里」概漱。
前言:整篇內(nèi)容3000+字,速讀需要5分鐘
這幾年紅遍網(wǎng)絡(luò)的「FaceU激萌」APP,特斯拉自動駕駛简识,iPhoneX的FaceID ...大家都有所耳聞,而這些都和今天的「計算機(jī)視覺」有著密不可分的關(guān)系感猛。
從PM的視角出發(fā)七扰,本篇內(nèi)容我會圍繞這4塊內(nèi)容來跟大家交流:
1. 什么是計算機(jī)視覺
2. 現(xiàn)階段有哪些應(yīng)用技術(shù)
?3. 落地中會遇到哪些問題和挑戰(zhàn)
4. 產(chǎn)品方向一些思考
1.什么是計算機(jī)視覺?
計算機(jī)視覺(Computer Vision)陪白,可以理解是「讓計算機(jī)怎么去看颈走?」,相當(dāng)于人類視覺的功能咱士。
「以下案例為了確保更好理解立由,犧牲一定的嚴(yán)謹(jǐn)性」
拿人類來舉例,你正在駕駛一輛汽車序厉,突然前面出現(xiàn)一個人锐膜,你會怎么辦?
剎車或打方向盤避開是不是 弛房?看似這個好簡單的問題道盏,實(shí)際是要經(jīng)過一系列復(fù)雜的處理
1.首先眼前突然出現(xiàn)物體會進(jìn)入到你的視網(wǎng)膜,經(jīng)過分析之后庭再,把這信息發(fā)給你的大腦捞奕。
2.你的大腦會處理這些信息,跟你大腦里所有存儲的信息做比較后拄轻,進(jìn)行物體和緯度的歸類颅围。
3.通過的信息歸類,給出理解我正在開車恨搓,正前方出現(xiàn)這個是人院促,距離越來越近了筏养,我不能撞到他的判斷。
4.然后大腦通過神經(jīng)系統(tǒng)作出反應(yīng)常拓,控制你的腳踩剎車渐溶,或者手控制方向盤避開。
「這一系列的動作只發(fā)生在零點(diǎn)幾秒」
如果這些動作由計算機(jī)來完成弄抬,就可以初步理解為這個就是計算機(jī)視覺在于AI領(lǐng)域的應(yīng)用茎辐。
再舉個例子,看看N年前的FaceU是怎么使用計算機(jī)視覺這個技術(shù)的:
1.通過手機(jī)的攝像頭傳感器掂恕,把眼前的物體傳遞給某處理器拖陆。
2.處理器通過多項技術(shù)來理解眼前物體,識別出圖像中哪個是人臉懊亡,哪些是背景依啰。
3.給人臉進(jìn)行處理,分辨出人臉上的各個器官店枣,并在關(guān)鍵器官上打上特殊標(biāo)記速警。
4.制作好的素材和這些特殊標(biāo)記結(jié)合筒主,并且通過手機(jī)屏幕展示出來給你段多。
「注:上圖為原始圖和人臉打標(biāo)夯膀,下圖為根據(jù)標(biāo)記作出的處理滥搭,很有趣是不是」
2.現(xiàn)階段有哪些技術(shù)服務(wù)
目前計算機(jī)視覺主要應(yīng)用的技術(shù)有哪些:
1.基于人臉識別:人臉檢測,人臉對比填渠,人臉查找…
2.基于文字識別:通用文字钦听,網(wǎng)絡(luò)圖片椿争,卡證文字…
3.基于圖像識別:圖片審核逾柿,圖像識別,圖像搜索…
2.1人臉識別
剛才FaceU激萌例子宅此,想必大家對人臉識別有了一點(diǎn)概念机错,接下來我們看一看有人臉識別的應(yīng)用技術(shù)。
人臉檢測:想要做人臉識別父腕,首先得讓計算機(jī)知道哪些是人臉弱匪,所以人臉的檢測是對后續(xù)人臉分析和處理的基礎(chǔ)。通過對圖片掃描和判斷璧亮,在圖片用藍(lán)色的矩形標(biāo)示出來萧诫。
人臉配準(zhǔn):定位并返回人臉五官與輪廓的關(guān)鍵點(diǎn)坐標(biāo)位置,關(guān)鍵點(diǎn)包括人臉輪廓枝嘶、眼睛帘饶、眉毛、嘴唇以及鼻子輪廓群扶,最多會返回106個點(diǎn)及刻。
人臉屬性:對圖像的一系列基礎(chǔ)處理之后镀裤,通過一系列的算法,來識別人臉的屬性缴饭,例如:
這部分是我覺得最有意思的一部分暑劝,可以給我們設(shè)計產(chǎn)品和服務(wù)很多想象空間。
目前針對人臉屬性的識別可以提供以下這些參數(shù)供大家使用:
雖然目前提供有意思的參數(shù)很多颗搂,但很多的屬性識別的準(zhǔn)確性還有待提高担猛。
但這并不影響一部分商用價值或產(chǎn)品化,重點(diǎn)是我要為誰解決什么問題丢氢,容錯程度是多少傅联。
后續(xù)我們來再來仔細(xì)聊一聊這個話題。
人臉特征提取卖丸, 人臉驗(yàn)證纺且,人臉檢索,人臉活體檢測
因?yàn)檫@些是一個系列的解決方案稍浆,所以這一部分我放在一起來說明载碌。
現(xiàn)在AI市場上最熱的幾個領(lǐng)域:智慧安防,智慧金融衅枫,智慧商業(yè)嫁艇,都是運(yùn)用這一系列的解決方案。
最基礎(chǔ)的是人臉特征提取弦撩,將人臉轉(zhuǎn)化為一段固定長度的數(shù)值步咪。
人臉的驗(yàn)證就是把兩個人臉的數(shù)值,做比較益楼,然后計算出一個相似度猾漫。
人臉檢索就是根據(jù)人臉特征的數(shù)值,在大量的數(shù)據(jù)庫里檢索感凤,找出最相似的人悯周。
活體識別是一個提高安全性的機(jī)制,用于遠(yuǎn)程識別攝像頭的對象是真人陪竿,而不是一張照片禽翼。
2.2?文字識別
文字識別的就很好理解了,識別圖中的文字信息族跛,并且返回文字所在的位置闰挡,語言,內(nèi)容礁哄,目前正常場景的識別率可以達(dá)到90%长酗。
應(yīng)對不同的場景,又延伸出了很多服務(wù)姐仅,比如:
1.證件識別:身份證花枫,駕駛證刻盐,護(hù)照等等,格式化之后可以直接利用其中的信息劳翰。
2.網(wǎng)絡(luò)圖片文字識別:針對那些藝術(shù)字敦锌,特殊設(shè)計的文字。
3.其他:表格文字識別佳簸,票據(jù)文字識別乙墙,可以根據(jù)圖片內(nèi)的格式輸出。
2.3?圖像識別
圖像識別這個范圍很大了生均,需要看具體有價值應(yīng)用場景听想,通常識別物體:家居物品,動物马胧,植物汉买,品牌Logo,菜品…等等佩脊。
識別的邏輯跟人臉識別類似蛙粘,但是需要龐大的訓(xùn)練數(shù)據(jù),來教計算機(jī)認(rèn)識這些物體威彰,學(xué)習(xí)的越多出牧,識別率會越高,但目前可以提供服務(wù)就是一些好理解的歇盼,特征明顯的:貓舔痕,狗,電視豹缀,沙發(fā)伯复,玫瑰,汽車邢笙,火車…等等边翼。
但如果需要一些特殊場景下的識別,比如車輛的定損鸣剪,奢侈品包包的真假判斷,需要再一個垂直領(lǐng)域進(jìn)行深度學(xué)習(xí)和特殊數(shù)據(jù)的大量訓(xùn)練了丈积。
3.落地中會遇到哪些問題和挑戰(zhàn)
前面介紹了很多計算視覺在于應(yīng)用上的技術(shù)實(shí)現(xiàn)筐骇,但想闡述一些核心觀點(diǎn):
1.對于PM來講,人工智能也只是工具江滨,最終要的還是是理解行業(yè)铛纬,理解用戶,理解痛點(diǎn)唬滑。
2.對于技術(shù)本身告唆,我們更多是理解技術(shù)邊界棺弊,在自己應(yīng)用場景之下,知道什么可行擒悬,什么不可行模她。
3.另外就是項目中的實(shí)戰(zhàn)經(jīng)驗(yàn),確保產(chǎn)品可以落地懂牧,并且真的可以產(chǎn)生價值的策略侈净。
3.1應(yīng)用場景不同,技術(shù)成熟度也不同
對于不同的應(yīng)用場景來說僧凤,所需技術(shù)成熟是不同的畜侦,舉個例子:
1.像FaceU激萌,分析視頻物體推薦購買躯保,當(dāng)前的技術(shù)就比較“成熟”旋膳。
2.而自動駕駛,智慧醫(yī)療途事,當(dāng)前的技術(shù)就“不夠成熟”
其一因?yàn)?b>標(biāo)準(zhǔn)不一樣验懊,人工智能本身是一個概率學(xué)的事情:
1.就算FaceU人臉的坐標(biāo)有偏差,拍攝環(huán)境惡劣盯孙,用戶也可以接受并配合調(diào)整鲁森。
2.就算視頻里的物體識別不夠精準(zhǔn),推薦錯了品牌振惰,廣告投放商和服務(wù)商也可以接受歌溉,因?yàn)橐呀?jīng)有較大幅度提升。
3.但是如果自動駕駛在某種沒有被訓(xùn)練的惡劣環(huán)境下骑晶,出了嚴(yán)重的交通事故痛垛,是不能接受的。
4.醫(yī)療也一樣桶蛔,計算機(jī)推薦通過影像識別腫瘤在這個位置匙头,從這里下刀后發(fā)現(xiàn)計算機(jī)判斷的并不正確,也是不能被接受的仔雷。
3.2?準(zhǔn)確率提升依賴大量的數(shù)據(jù)蹂析,但光數(shù)據(jù)量大是不夠的
產(chǎn)品要開始落地之前,首先考慮圖像一類相關(guān)數(shù)據(jù)是否是打通的碟婆,是否可供機(jī)器訓(xùn)練电抚,因?yàn)闄C(jī)器學(xué)習(xí)的數(shù)據(jù)越多準(zhǔn)確率越高。
但是只是提供訓(xùn)練數(shù)據(jù)就可以了嗎竖共?實(shí)際的情況并不是的蝙叛,因?yàn)椋?b>訓(xùn)練的數(shù)據(jù)未必真實(shí)符合情況的數(shù)據(jù)
舉個例子你就明白了:
而且準(zhǔn)確率并不是產(chǎn)品落地的唯一評價指標(biāo),還有誤報率公给,實(shí)時監(jiān)控尋找某個罪犯借帘。
結(jié)果在同一個時間蜘渣,多個地點(diǎn)都發(fā)現(xiàn)了這個“罪犯”,這顯然是不夠“成熟”的肺然。
3.3?實(shí)際場景還會有諸多問題
等產(chǎn)品進(jìn)入到實(shí)際場景中測試時候蔫缸,就會發(fā)現(xiàn)還有很多無法預(yù)料的事情。
1.真實(shí)場景硬件的性能是否可以達(dá)到訓(xùn)練時候的效果狰挡?攝像頭清晰度捂龄?硬件計算能力?網(wǎng)絡(luò)信號和速度加叁?
2.識別算法是否可以應(yīng)用到所有場景倦沧?信噪比?對比度它匕?是否遮擋展融?運(yùn)動狀態(tài)的會模糊?不同天氣的光線差異豫柬?角度不同產(chǎn)生影響告希?
3.還有就是非常現(xiàn)實(shí)的成本問題烧给,也就是看ROI燕偶,想用機(jī)器人通過圖像識別來替代人,那要看投入產(chǎn)出比础嫡,還得是否可以規(guī)闹该矗化。
綜上所述榴鼎,這里就需要PM 的能力伯诬,比如MVP,A/B test模型巫财,數(shù)據(jù)分析盗似,以及對于自己的行業(yè)以及用戶深刻理解,洞察行業(yè)的本質(zhì)平项。
4.?產(chǎn)品落地方向的一些思路
PM+ AI +X的落地方向上的話赫舒,借助這幾個點(diǎn)來思考:
1.哪些可以大幅提升效率,減少人工成本闽瓢,且可以規(guī)暮虐ⅲ化。
2.哪些是剛需鸳粉,但是用戶體驗(yàn)很差,尤其是時效性有很大要求的园担。
3.哪些是以前做不到的事情届谈,但是AI可以做到的枯夜,比如:自動駕駛。
目前計算機(jī)視覺的應(yīng)用和方向:
但具體要做什么產(chǎn)品艰山,就沒必要在這了YY了湖雹,是否可落地是需要每個PM對于行業(yè)的深刻洞察,歡迎你隨時帶著行業(yè)的痛點(diǎn)和經(jīng)驗(yàn)來一起討論AI具體落地方法曙搬。
目前計算機(jī)視覺在技術(shù)上僅是在部分領(lǐng)域識別具有產(chǎn)品落地和商用的價值摔吏,但是對于圖像的理解和描述還處于研究階段,是一個需要突破的瓶頸纵装,讓AI可以更深的正確的理解圖像內(nèi)容后征讲,才能產(chǎn)生正確有效的行為,才真的“智能”橡娄,這也是我目前最感興趣的诗箍,也是最有價值的地方。
以上就是我的「產(chǎn)品經(jīng)理的人工智能知識框架」系列的第二篇學(xué)習(xí)筆記挽唉,歡迎通過留言等形式一起溝通交流滤祖。
AI PM認(rèn)知系列的相關(guān)閱讀:
第一篇:從0開始搭建產(chǎn)品經(jīng)理的AI認(rèn)知體系
第二篇:產(chǎn)品經(jīng)理的AI知識框架:計算機(jī)視覺
第三篇:產(chǎn)品經(jīng)理的AI知識框架:語音識別與合成
作者:蘭楓「微信公號:藍(lán)風(fēng)GO @LanFengTalk」,前騰訊游戲瓶籽,新浪微博PM匠童,Elex產(chǎn)品總監(jiān),連續(xù)創(chuàng)業(yè)者塑顺。