Abstract
食物照片被廣泛應用在食物飲食監(jiān)測、食物日志赏殃、以及分享烹飪經歷的社交網絡中间涵。大量的圖片在餐廳中拍攝, 由于不同的菜品抗蠢、烹飪方式以及從視覺外觀來進行食物建模的內在困,使得菜品識別通常很具有挑戰(zhàn)性妨猩。因此秽褒,上下文信息在這樣的應用場景下對提高識別性能顯得尤為重要销斟。尤其是,地理上下文在戶外地表識別上被廣泛地探索之后约谈。相似的犁钟,我們探討菜譜、位置军俊、餐館以及測試圖片之間的相關信息捧存。首先,丟棄與測試圖片相差較大的非相似類別去適應一個網絡镰官;然后吗货,使用一個隨機模型鏈接菜品、餐廳笨腥、位置對問題進行重現勇垛。在三個不同任務上應用這個模型:菜品識別闲孤、餐館識別、位置優(yōu)化肥照。在6個數據庫上的實驗表明通過整合多個線索(視覺、位置鲤脏、知識)我們的系統(tǒng)能在所有課題上提高性能亿蒸。
Introduction
飲食是日常必需的活動,食物和我們生活的方方面面緊密相連姑食。隨著近來諸如智能手機和計算機視等科技的發(fā)展茅坛,食物相關的應用也逐漸繁榮贡蓖。健康監(jiān)測是一個重要的研究領域。比如食物日志彻桃,卡路里攝入估計晾蜘,營養(yǎng)分析。飲食自我監(jiān)測通過改變飲食習慣能有效幫助人們減重肆饶。其余一些比較流行的領域包括烹飪岖常。比如烹飪視頻檢索和創(chuàng)作竭鞍,烹飪行為識別,菜單計劃洒放,食譜推薦滨砍,增強配方,烹飪支持和幫助领追。本文的工作集中在社會語境中的菜品圖片响逢,提供自動的標注以及檢索出相似的圖片舔亭。社交網絡對于預測消費模式和食物分析非常有用。
為了有效實現這些應用订雾,從圖片中直接識別食物變得非常必要矛洞。然而,不受限制的食物識別對于人類來說也仍然很具有挑戰(zhàn)性噩峦,尤其是只依賴于視覺信息抽兆。事實上辫红,當處理復雜的識別任務時,人類會聯合先驗和語義信息导盅。相似的揍瑟,智能系統(tǒng)也能借助外部知識來簡化問題。
本文關注生活中人們去餐廳吃飯和拍攝食物照片這個特定卻又普遍的場景滤馍。這些照片能夠被保存在個人的食物日志里底循,被用來提取營養(yǎng)信息熙涤、食譜困檩、感興趣的任何其他信息那槽,或者作為個人經歷分享到社交網絡骚灸。用戶通常對于特定的食物或者餐廳不熟悉(比如當初次旅游時),所以自動識別就會顯得很方便义郑。在這樣的場景下丈钙,食物名稱和餐廳名稱是兩個重要的標簽著恩。這種場景下的無約束的菜品識別由于食物種類繁多,烹飪方法和不同餐廳的展示方式不同而變得及其困難邀摆。因此我們借助外部信息(菜單和餐廳信息)以及探索地理位置來簡化問題伍茄,提高性能敷矫。
本文采用隨機策略,允許為問題中的每一個元素設計一個彈性的模型榨汤,通常會提升一定的性能怎茫。因此,我們提出一個連接位置蜜宪、餐廳圃验、菜品和視覺特征的隨機模型缝呕。通過結合視覺斧散、位置信息颅湘、餐廳信息栗精,能夠顯著提高自動的菜品和餐廳名字標注的性能悲立。同時新博,本文能夠優(yōu)化位置估計,在室內這種難以估計的環(huán)境下尤其有用原献。
Related work
在本文的特定場景下(餐廳中的菜品識別)我們能識別兩類相關工作:菜品識別和基于文本的圖片識別姑隅。
早期的菜品識別能夠在很多的類別中進行分類倔撞,[Automatic expansion of a food image dataset leveraging existing categories with domain adaptation]提出一種能夠辨別256種菜品的手機菜品識別系統(tǒng)痪蝇。然而多菜品識別以及精細分類仍是一個難題。
當人類面臨一個復雜問題時趁矾,通常會查找比內容本身更重要的語義信息给僵。類似的,現代設備能夠探索不同來源的知識(網站培漏、數據庫)以及語義信息(GPS牌柄,加速計)侧甫。最具代表性的例子是手機識別地標蹋宦。[Content and context boosting for mobile landmark recognition]基于位置和圖片檢索技術從地標圖片數據庫中查找類似的地標冷冗,以此來對測試圖片進行標注惑艇。位置能夠有效將搜索過程限制在一個小的圖片子集中滨巴。典型的,像SIFT一類的局部特征被提取出來泰偿,編碼成“詞袋”模型或者利用單詞樹蜈垮。由于地標具有剛性和幾何不變性攒发,提取相似圖片并驗證幾何形就能找到正確的地標。分類器通常會替代檢索技術烟阐。此時位置信息能夠幫助限制分類任務在集合領域中蜒茄。
[Menu match: Restaurant-specific food logging from images]餐屎、[Leveraging context to support automated food recognition in restaurants]腹缩、[Geolocalized modeling for dish recognition]同時提出來利用文本信息和位置信息去提升菜品識別率。它們能減少在附近餐廳菜單中的菜品的候選類別润讥。[menu match]還提取了菜品的營養(yǎng)信息盘寡,在一個從10家餐館提取出的4350張圖片竿痰,3家餐館提取的645張圖片數據庫上進行試驗砌溺。 這些研究致力于地理位置條件下的分類规伐,表明位置信息能夠幫助提高分類性能匣缘。相反的孵户,本文我們關注對語義信息、等其他信息的更好地建模而不是視覺分類器其本身。
Dish recognition in restaurants
A.餐廳菜品識別問題
傳統(tǒng)的食物或者菜品識別試圖通過特定的視覺分類器p去識別輸入圖片的類別s以及他們的視覺描述x竖配。我們關注餐廳中的菜品識別进胯,假設用戶目前正處在餐廳中原押。因此除了視覺模型诸衔,系統(tǒng)還獲得了語義信息,尤其是菜單歸屬的餐廳以及用戶和餐廳的地理位置就缆。
識別系統(tǒng)將(U谒亦,x)作為輸入份招,U表示位置坐標,x為視覺描述子廓旬。當新圖片被捕獲時鄙漏,假設手機設備已經通過位置服務功能估測到了當前位置(latitude,longitude)旁赊。
對于一個給定的餐廳k椅野,系統(tǒng)探索菜單Mk和地理位置(latitude竟闪,longitude)的信息。Mk是指餐廳k所提供的菜品類別信息妖爷。餐廳數據庫包含了K家餐廳的所有菜品絮识。
B.方法1:候選名單
迄今一個較簡單的獲取位置信息的方法是丟棄不太可能的候選信息以減少問題復雜度。這種方法通常用在地標識別上嗽上,通常被叫做候選名單方法次舌。該方法使用位置信息去丟棄以u為中心的一定區(qū)域之外的地標或者建筑,然后在保留的候選信息中尋找和原圖相似的地標兽愤。由于保留的圖片以分數形式呈現候選等級彼念,所以簡化問題和計算量同時提高精度。
這種方法也能被應用于本文中浅萧,用戶用智能終端拍攝圖片通過系統(tǒng)定位功能獲取位置信息逐沙。圖片一定是在定位的附近拍攝,只有附近餐館的菜單才會包含用戶拍攝的這張圖片惯殊,所以候選類別能夠被視覺分類器所識別。給定坐標信息U和視覺描述x土思,菜品預測等價于尋找在候選菜單中的最大似然务热,
Probabilistic Framework
A.model
候選名單方法的思想很直觀,本文采用概率論的觀點對系統(tǒng)進行建模己儒,以利用概率模型聯系不同元素而不是根據經驗法則崎岂。本文模型中,手機等終端設備提供預測的位置信息u和視覺描述x闪湾,也就是觀測變量冲甘。確切的位置信息ψ,餐廳k,菜品s是潛在變量江醇。明確引入餐廳和菜品(通過菜單)濒憋,視覺特征和菜品(通過視覺分類器),餐廳和用戶位置陶夜,這幾者之間的依賴關系凛驮。引入ψ變量表示用戶位置,該位置不同于移動終端預測的位置条辟。
給定當前觀測和潛在變量黔夭,以及地理模型,聯合概率p(s,k,ψ|u,x)表示為
因式分解后可以得出三個關鍵信息:p(ψ|u)表示領域模型羽嫡,p(k|ψ)表示餐廳位置模型本姥,p(s|k,x)表示視覺模型。
為了預測菜品杭棵,將k婚惫,ψ邊緣化,
通過解答下式可以獲得菜品的分類結果颜屠,
B.Revisiting the shortlist approach
名單再訪問如下圖所示辰妙,
領域模型實際上就是以u為圓心,e為半徑的圓甫窟,
餐廳用點表示,因此蛙婴,用以下delta函數表示餐廳位置的聯系粗井,
對于每一個餐廳來說,只有在該餐廳菜單中的菜品才是候選類別街图,因此具有非零的概率浇衬。將此在視覺模型中進行表示,
其中p=1(當描述為真)餐济;p=0(當描述為假)耘擂。該式能夠歸一化以包含所有概率。
PS:原文——《Modeling Restaurant Context for Food Recognition》