作為 ML 工程師,Edge Analytics和Infinity AI的團隊非常熟悉與為計算機視覺應用程序獲取高質量標記圖像相關的挑戰(zhàn)刊侯。隨著生成圖像模型的發(fā)布,例如來自Stability AI的開源Stable Diffusion锉走,我們探索了使用生成模型來提高特定語義分割模型的性能滨彻。
Stable Diffusion是 Stability AI 在今年早些時候發(fā)布的一種非常強大的文本到圖像模型。在這篇博文中挪蹭,我們將探索一種使用穩(wěn)定擴散來增強訓練數(shù)據(jù)的技術亭饵,以提高圖像分割任務的性能。這種方法在數(shù)據(jù)有限或需要繁瑣的人工標記的應用程序中特別強大梁厉。
在計算機視覺模型的上下文中辜羊,圖像分割是指根據(jù)圖像的內(nèi)容將圖像分成兩個或多個部分。與“圖像分類”相比词顾,分割的目標不僅是識別圖像包含什么八秃,而且圖像的哪些 部分對應于每個類。
具體來說肉盹,我們將查看DeepGlobe 道路提取數(shù)據(jù)集昔驱,其中包含大約 6,000 張鄉(xiāng)村道路的航拍照片。該數(shù)據(jù)集的任務是將圖像分為兩類:“道路”和“背景”上忍。該數(shù)據(jù)集還帶有掩模圖像形式的訓練標簽骤肛,其中道路以白色標識,背景為黑色窍蓝。
image.png