在人工智能視覺檢測領(lǐng)域,我們知道随橘,要識別出某個目標(biāo)來喂分,比如識別出一個人在抽煙,都是需要大量有人抽煙的圖片素材來輸入給AI模型進行訓(xùn)練机蔗,讓它學(xué)習(xí)到相關(guān)的特征蒲祈,注意,這些特征并不是我們通常意義上可以用文字描述出來的特征蜒车,而是純感官上的直覺讳嘱,要賦予AI的也是這種直覺。
為了收集這類有目標(biāo)的圖片酿愧,以前往往需要付出很多的成本,比如采購相關(guān)的圖片視頻數(shù)據(jù)邀泉、在網(wǎng)上花時間搜索公開數(shù)據(jù)庫嬉挡、或者干脆再自己扮演角色來模仿動作并采集圖片。但汇恤,最近遇到了一個比較難收集素材的需求:檢測廚房里有老鼠出沒庞钢。芭比Q了,老鼠可不會配合人來擺拍因谎,都是人不再的時候才出動基括,而是啥時候出動也是個未知數(shù)呀,所以要采集到老鼠出沒的視頻很難的财岔。那就去網(wǎng)上搜索风皿?百度到的結(jié)果,與我想要的背景不太相符匠璧。那有沒有一種可以融入我們預(yù)設(shè)好的現(xiàn)實中的背景桐款,并更好的穩(wěn)定輸出目標(biāo)的方式呢?《生成式人工智能》一書中夷恍,提到了一個不錯的方式魔眨,是運動到AI質(zhì)檢領(lǐng)域,但是思路可以擴展到整個視覺分析領(lǐng)域酿雪。書中提到:
沒有很多缺陷圖片數(shù)據(jù)來訓(xùn)練遏暴,視覺模型就很難達到不錯的效果,AI質(zhì)檢也會存在漏檢率或者誤檢率偏高的情況指黎。對于這個問題朋凉,我們會采用一種樣本增強的技術(shù)來對缺陷庫進行補充。而傳統(tǒng)的樣本增強技術(shù)無非是對原始圖片進行各種方式的變換袋励,常見的有平移侥啤、旋轉(zhuǎn)当叭、縮放、翻轉(zhuǎn)等等盖灸,這種方式對于個別小樣本問題鮮有成效蚁鳖。隨著生成式AI的發(fā)展,出現(xiàn)了一種新的解決方案來應(yīng)對這個問題赁炎,即利用生成式AI模型對缺陷圖片進行生成醉箕,再利用生成出來的缺陷圖片進行視覺模型的訓(xùn)練。
在這個過程中徙垫,通過兩個步驟對缺陷圖片進行擴充讥裤。第一步,對于同一個缺陷類型姻报,設(shè)計不同缺陷位置的圖己英,可以通過人工構(gòu)建或平移等方式生成,我們把這些圖稱為種子圖吴旋。第二步是重點损肛,對于每一張這樣的種子圖,生成不同缺陷強度的圖片荣瑟,如圖4-16所示治拿,每一行從左到右,缺陷強度都逐步下降笆焰,各自生成6張不同強度的缺陷圖片劫谅,實際操作過程中可以生成更多。這樣一來嚷掠,缺陷庫就一下子豐富了捏检。
通過這種方式,模型對弱對比度缺陷的檢測能力顯著提高叠国,整體檢測性能也在顯著提升未檩,而這讓我們看到,生成式AI已經(jīng)在AI質(zhì)檢領(lǐng)域產(chǎn)生了積極的作用粟焊,也讓更多場景下的AI質(zhì)檢應(yīng)用成為可能冤狡。書中提到的例子是運用到工業(yè)質(zhì)檢領(lǐng)域的,有些缺陷通常在生產(chǎn)中都希望盡量避免项棠,所以這相關(guān)的樣本和素材本來就少悲雳,要去模擬也未必能夠覆蓋全。通過AIGC的方式香追,倒是一個不錯的思路合瓢,這樣可以大量輸出基于指定背景的目標(biāo)添加,而且每次都可以生成不重樣的圖片透典。首先技術(shù)已日趨成熟晴楔,通過圖生圖工具顿苇,輸入背景圖片,然后可以在指定區(qū)域增加目標(biāo)税弃,最新的Midjourney纪岁,DALL-E3都帶有這種局部控制功能,今天我也拿國內(nèi)AIGC繪圖做得好且免費的商湯秒畫來試試效果则果。
首先點擊“添加參考圖”幔翰,上傳一張圖片,這里我放一張餐飲店廚房的背景圖西壮。
4.輸入提示詞:一只家鼠,全身抡草,長尾巴缓待,四只腳,奔跑中渠牲。點擊生成。5.得到四張圖片步悠。如果不夠還可以一次生成8張圖片签杈,目前并不是每一張效果都好,文本引導(dǎo)強度 可以設(shè)置高些鼎兽,比如18.但還是要挑選下答姥,比如以下效果:
5.再結(jié)合我之前分享過的AIGC視頻工具:pika labs或gen-2,見文章:免費AI視頻生成神器pika labs:超越gen-2的驚艷效果對比谚咬,讓你的圖片躍動生動我們可以把生成的圖片輸入進去鹦付,得到動態(tài)視頻。