CVPR2018 Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

0落竹、關(guān)鍵詞

Pix3D, single RGB image, 3D shape modeling,?3D reconstruction,?shape retrieval,?3D pose estimation

1酝陈、鏈接

該論文來自MIT立倍,一作是一位在MIT訪學的交大畢業(yè)生Xiangyuan Sun弥姻,文章為數(shù)據(jù)集論文缅疟,因此涉及到眾多參與者和研究單位梗顺,除了MIT宵荒,還有SJTU和Google Research的參與采郎《海可以想象介时,好的工作必須依靠好的平臺和業(yè)內(nèi)資深的專業(yè)人士,才能有順利誕生的契機凌彬。

論文鏈接:http://pix3d.csail.mit.edu/papers/pix3d_cvpr.pdf

論文代碼:https://github.com/xingyuansun/pix3d

論文官方網(wǎng)站介紹:http://pix3d.csail.mit.edu/

本文提出的數(shù)據(jù)集著眼于解決現(xiàn)有同類型數(shù)據(jù)集存在的以下三個問題:1)3D模型與圖像中真實的物體不匹配(3D models may not match the objects in images); 2)物體的姿態(tài)標注不夠精確(pose annotations may be imprecise); 3)數(shù)據(jù)集的規(guī)模相對較蟹腥帷(or the dataset may be relatively small)。有了這些立論铲敛,本文設(shè)計并構(gòu)建數(shù)據(jù)集Pix3D順理成章褐澎。

Figure 1: Pix3D offers large-scale, diverse, well-aligned image-shape pairs.

2、主要內(nèi)容概述

※ Abstract

We study 3D shape modeling from a single image and make contributions to it in three aspects. First, we present Pix3D, a large-scale benchmark of diverse image-shape pairs with pixel-level 2D-3D alignment. Pix3D has wide applications in shape-related tasks including reconstruction, retrieval, viewpoint estimation, etc. Building such a large-scale dataset, however, is highly challenging; existing datasets either contain only synthetic data, or lack precise alignment between 2D images and 3D shapes, or only have a small number of images. Second, we calibrate the evaluation criteria for 3D shape reconstruction through behavioral studies, and use them to objectively and systematically benchmark cuttingedge reconstruction algorithms on Pix3D. Third, we design a novel model that simultaneously performs 3D reconstruction and pose estimation; our multi-task learning approach achieves state-of-the-art performance on both tasks.

摘要的形式比較新穎伐蒋,直接申明提出的數(shù)據(jù)集Pix3D存在三點貢獻工三,然后在每一點的貢獻中迁酸,闡述當前領(lǐng)域存在的問題,以及自己是如何解決的俭正,或者說Pix3D的相對優(yōu)勢在哪里奸鬓。

※ Introduction

第一段指出,現(xiàn)有的3D視覺領(lǐng)域已經(jīng)存在了大量經(jīng)典數(shù)據(jù)集掸读,包括3D CAD模型倉庫數(shù)據(jù)集ShapeNetPrinceton Shape Benchmark串远,大規(guī)模真實圖像與CAD形狀關(guān)聯(lián)庫Pascal 3D+ObjectNet3D,以及對圖像中的形狀對象進行精細化姿態(tài)標注的數(shù)據(jù)集IKEA儿惫,為什么還需要這個新的數(shù)據(jù)集Pix3D呢澡罚?

第二段,作者指出現(xiàn)有的數(shù)據(jù)集不足以支撐從單張RGB圖像中恢復出3D模型肾请。比如留搔,ShapeNet僅僅包含3D模型,不包含含有對應(yīng)物體的真實圖片筐喳;Pascal 3D+ObjectNet3D雖然含有真實圖片催式,但image-shape對都是十分粗糙的,因為3D模型并未與圖像中的真實物體完全契合避归;IKEA雖然滿足真實圖片與3D模型的精細化對齊組合荣月,但數(shù)據(jù)量太小,僅包含90個3D模型758張圖像梳毙。

第三段中哺窄,作者提到自己的數(shù)據(jù)集Pix3D同時具有三個長處(merits):a large-scale dataset of real images and ground-truth shapes with precise 2D-3D alignment。Pix3D數(shù)據(jù)集擁有395個3D模型和9個物體類別账锹,每一個3D模型對應(yīng)著多種多樣的真實場景中2D RGB圖像物體萌业,總計有10,069個image-shape對,它們包含了精確的3D姿態(tài)標注奸柬,和像素級別的形狀與圖像剪影(silhouettes)的對齊組合生年。

第四段強調(diào)構(gòu)建Pix3D是一項充滿困難的挑戰(zhàn):現(xiàn)實生活中的2D圖像雖然很對,但僅包含RGB信息的物體是很難獲得高質(zhì)量的3D形狀的廓奕。相對地抱婉,即使有了類似于ShapeNet這樣能提供大量3D CAD模型的倉庫,但也難以找到與倉庫中每個shape精準對應(yīng)的2D圖像桌粉。最后蒸绩,RGB圖像想要獲得物體的精準姿態(tài)是極為困難的。(這一點挑戰(zhàn)铃肯,應(yīng)該是相對于RGB-D或3D點云數(shù)據(jù)集而言的)

第五段患亿,作者申明自己分三步來嘗試解決第四段中提到的挑戰(zhàn):1) we collect a large number of image-shape pairs by crawling the web and performing 3D scans ourselves.(爬蟲程序成本低且容易,自己做3D掃描成本高且困難)押逼;2) we collect 2D keypoint annotations of objects in the images on Amazon Mechanical Turk, with which we optimize for 3D poses that align shapes with image silhouettes.(通過Amazon付費完成在線標注步藕,標注的2D關(guān)鍵點用于和3D形狀驚醒對齊惦界,采用的是成熟的PnP算法,以獲得精準的姿態(tài)標注)咙冗;3)we filter out image-shape pairs with a poor alignment and, at the same time, collect attributes (i.e., truncation, occlusion) for each instance, again by crowdsourcing. (標注具有高質(zhì)量性和屬性多樣性表锻,且采用了眾包的標注方式,又是一筆經(jīng)費開支)

第六段乞娄,作者提及了數(shù)據(jù)集標注質(zhì)量的問題瞬逊,即如何客觀地度量重建出的3D形狀與2D物體是精準匹配的呢?作者提到了三個最常用的度量標準仪或,包括intersection over union, Chamfer distanceearth mover’s distance确镊。基于這些度量標準范删,作者在文章中會給出關(guān)于3D object modeling問題的baseline算法蕾域,當然也是彼時在Pix3D數(shù)據(jù)上的SOTA算法。

第七段到旦,作者還指出旨巷,Pix3D數(shù)據(jù)集還能用于探索3D object pose estimation3D shape retrieval任務(wù),作者也對應(yīng)地給出了一個novel的baseline算法添忘,它能夠同時完成物體形狀和姿態(tài)的估計任務(wù)采呐,這種多任務(wù)學習的方式,是具有一定優(yōu)勢的搁骑。

最后一段斧吐,作者重申paper的三個貢獻:

First, we build a new dataset for single-image 3D object modeling; Pix3D has a diverse collection of image-shape pairs with precise 2D-3D alignment.

Second, we calibrate metrics for 3D shape reconstruction based on their correlations with human perception, and benchmark state-of-the-art algorithms on 3D reconstruction, pose estimation, and shape retrieval.

Third, we present a novel model that simultaneously estimates object shape and pose, achieving state-of-the-art performance on both tasks.

實際上,這些貢獻多少與摘要和引論中的部分內(nèi)容是重復的仲器,且第二點和第三點也有部分重復煤率,但一般論文的introduction都是要以總結(jié)主要貢獻來結(jié)尾的,以凸顯論文的novelty乏冀。評審或感興趣的讀者蝶糯,也能通過快速瀏覽這一部分,盡快了解文章的核心價值辆沦。

※ Related Work

●?Datasets of 3D shapes and scenes. 更加詳細地介紹3D數(shù)據(jù)集昼捍,依次包括ShapeNet、Pascal 3D+众辨、ObjectNet3D端三、Elastic2D3D等舷礼,并再次指出它們尚存在的一些缺陷鹃彻。另外,另一條3D數(shù)據(jù)集類型為RGB-D或僅depth-based妻献,它們大都被用于robot manipulation蛛株,這類數(shù)據(jù)集的規(guī)模較小团赁,且場景單一,和Pix3D這類基于單張in-the-wild的真實圖像數(shù)據(jù)集相比谨履,泛化性不夠好欢摄。接著,作者指出與Pix3D數(shù)據(jù)集最相似的為IKEA笋粟,Pix3D可以看作是其大規(guī)幕衬樱化的擴展,包括物體類別和圖像數(shù)量害捕。最后绿淋,另一個3D場景數(shù)據(jù)集,比如LabelMe3D尝盼、NYU-D吞滞、SUN RGB-D、KITTI盾沫,大都包含的是合成場景的數(shù)據(jù)裁赠,或僅僅只有3D場景,只適合3D重建赴精,并不是Pix3D主要比較的對象佩捞,

?Single-image 3D reconstruction. 從單張圖像中恢復3D物體形狀是十分具有挑戰(zhàn)性的,因為這既需要完成物體識別蕾哟,又需要物體形狀的先驗知識失尖。實際上,已經(jīng)有大量相關(guān)工作能夠?qū)崿F(xiàn)單張圖像的3D重建渐苏,按照表征物體的方式大致分為三類:voxels,?point clouds,?octave trees掀潮,Pix3D為這些方法的研究提供了很好的測量基準。

?Shape retrieval. 如果不考慮3D重建琼富,另一類相似的任務(wù)是形狀檢索仪吧,即給定物體2D圖像找到,找到最合適的3D形狀鞠眉。Pix3D提供了多種多樣的物體形狀(contains shapes with significant inter-class and intra-class variations)薯鼠,因此適合此類任務(wù)。

?3D pose estimation.??Pix3D也提供了物體的3D姿態(tài)標注械蹋。

※?Building Pix3D

Figure 2: We build the dataset in two steps.

3.1. Collecting Image-Shape Pairs??

通過兩種方式獲取image-shape對:

1)Extending IKEA. 擴展IKEA數(shù)據(jù)集出皇,即通過網(wǎng)絡(luò)爬蟲獲取IKEA中物體類別對應(yīng)的真實2D圖像,并將其中含有的物體與IKEA中提供的3D shape對齊哗戈。搜索引擎包括Google郊艘、Bing和Baidu,對于IKEA中219個shapes共獲得了104,220張圖像。再通過Amazon Mechanical Turk (AMT)移除不相關(guān)的圖片(For each image, we ask three AMT workers to label whether this image matches the 3D shape or not.)纱注,對于哪些存在爭議的標注畏浆,會再分類給其它三個標注者二次標注,之后根據(jù)最大投票值決策狞贱。最后刻获,219個shapes共獲得了14,600張圖像。

2)3D scan.?直接拍照和掃描3D物體瞎嬉。通過綁定有傳感器的iPad掃描物體(We scan non-IKEA objects with a Structure Sensor mounted?on an iPad.)蝎毡,該硬件裝備有與其RGB相機同步的深度傳感器,二者的標定由另一家公司提供(calibrated by the Scanner App provided by Occipital, Inc.)氧枣。RGB相機的分辨率為2592×1936顶掉,深度相機的分辨率為320×240。掃描和3D重建也是由該硬件設(shè)備完成(For each object, we take a short video and fuse the depth data to get its 3D mesh by using fusion algorithm provided by Occipital, Inc.)痒筒。總計掃描了209個物體并得到了2,313張圖像解藻,加上原擴展后的IKEA數(shù)據(jù)集老充,共計418個shapes和16,913張圖像。

●?3.2. Image-Shape Alignment??

這一步需要完成物體2D圖像與3D形狀的對齊(align a 3D CAD model with its projection in a 2D image)螟左,也就是獲取物體的3D pose啡浊,包括3D形狀的平移和旋轉(zhuǎn)參數(shù)。作者繼續(xù)使用了IKEA中基于關(guān)鍵點的方法(keypoint-based method)胶背。也就是從以下約束中,求解投影矩陣P廷粒。

\mathcal{L}(P; X_{3D}; X_{2D})=\sum\limits_i{\| \text{Proj}_P(X_i)-x_i\|_2^2}~~~~~~(1)

其中,X_{2D}X_{3D}分別表示一系列物體表面山一一對應(yīng)的點红且,\text{Proj}_P(\cdot)表示投影函數(shù)坝茎,投影矩陣中包含了相機參數(shù)和3D姿態(tài)信息,在中心投影的假設(shè)下(Under the central projection assumption (zero-skew, square pixel, and the optical center is at the center of the frame))壁酬,可以將P表示成P=K[R|T]次酌,其中K\in\mathbb{R}^{3\times3}表示相機內(nèi)參恨课,組成如下;R\in\mathbb{R}^{3\times3}T\in\mathbb{R}^{3}分別表示3D物體的旋轉(zhuǎn)和平移參數(shù)和措。

K=\left[\begin{array}{ccc} f & 0 & w/2 \\ 0 & f & h/2 \\ 0 & 0 & 1 \end{array}\right]~~~~~~(2)

其中,f表示相機鏡頭焦距蜕煌,wh分別表示圖像的寬和高派阱。這是一個十分泛化的假設(shè)。因此斜纪,綜上所述贫母,共計有七個參數(shù)需要估計:旋轉(zhuǎn)參數(shù)\theta, \phi, \psi ,平移參數(shù)x,y,z盒刚,相機焦距f腺劣。為了估計等式(1)中的參數(shù)嗎,作者首先使用基于對應(yīng)關(guān)鍵點的EPnP算法得到粗略的3D姿態(tài)因块,然后使用Levenberg-Marquardt(LMA)算法精細化地調(diào)整得到更精確的參數(shù)值橘原。關(guān)于調(diào)用EPnPLevenberg-Marquardt(LMA)算法的處理細節(jié)及參考文獻,參見原文描述涡上。

至于實現(xiàn)細節(jié)上趾断,作者在標注2D和3D的對應(yīng)關(guān)鍵點時,每個3D物體隨機地選擇8到24個關(guān)鍵點吩愧,讓三個AMT標注者冗余標注芋酌,最后選擇可見關(guān)鍵點進行優(yōu)化和獲取姿態(tài)參數(shù)。然而雁佳,標注是有噪聲的(The 2D keypoint annotations are noisy, which severely hurts the performance of the optimization algorithm.)脐帝,作者想到使用RANSAC算法和篩選3個AMT標注結(jié)果的最優(yōu)非空子集的方式,來提升使用優(yōu)化算法生成標簽這一過程的魯棒性糖权,接著再讓3個AMT標注者重新選擇一次堵腹。作者最后還使用了ObjectNet3D中提供的GUI標注工具,對關(guān)鍵點對的標注進行了微調(diào)星澳。具體描述見原文秸滴。

最后,Pix3D數(shù)據(jù)集中共計395個shapes和10,0769張圖像募判。

Figure 3: Sample images and shapes in Pix3D. From left to right: 3D shapes, 2D images, and 2D-3D alignment. Rows 1–2 show somechairs we scanned, rows 3–4 show a few IKEA objects, and rows 5–6 show some objects of other categories we scanned.

※ Exploring Pix3D

數(shù)據(jù)集類文章荡含,少不了與先前的同類數(shù)據(jù)集(predecessors)進行參數(shù)比對的環(huán)節(jié)。

●?Dataset statistics.

從圖4届垫、5释液、6中的統(tǒng)計結(jié)果可以看出,Pix3D數(shù)據(jù)集具有很多種類和數(shù)量的shapes装处,每個shape又有很多對應(yīng)的in-the-wild的真實2D圖片误债。其中浸船,很明顯chair種類的數(shù)量占據(jù)數(shù)據(jù)集的絕大部分,這是因為它最常見寝蹈,具有顯著的類內(nèi)差異性李命,且被廣泛地研究。

Figure 4,5,6: dataset statistics

●?Quantitative evaluation.

另外箫老,作者還對數(shù)據(jù)集的質(zhì)量進行了定量性的測試封字。從待測試的4個數(shù)據(jù)集中,隨機地挑選25個椅子和25個沙發(fā)的圖像耍鬓,然后阔籽,先從數(shù)據(jù)集中標注的物體3D姿態(tài)標簽渲染出3D shape對應(yīng)的2D投影,再手工地標注2D圖像中物體的segmentation mask牲蜀,接著計算二者之間的IoU笆制。此外,作者還邀請了50個AMT標注者(花錢)涣达,對image-shape對是否匹配進行感性化地打分(0 or 1)在辆。

表1是統(tǒng)計結(jié)果,可以看出無論是IoU度苔,還是人類感覺的匹配度上开缎,Pix3D都是最優(yōu)的。IKEA本身在IoU上表現(xiàn)更差勁的原因在于林螃,其物體形狀(CAD模型)的尺寸標注不正確( incorrect scale)奕删,這就使得其很難完成shape與image的對齊。

※?Metrics

傳統(tǒng)的3D重建任務(wù)均使用IoU來度量重建的3D voxels與ground-truth之間的相似性疗认,然而這種度量方式可能與人體感覺差距很大完残。在計算機圖形學中,度量meshes匹配之間相似性有shortest distance和geodesic distance等更優(yōu)的方法横漏。文章使用了IoU, Chamfer distance (CD)Earth Mover’s distance (EMD)三個度量標準谨设。文中引用的參考文獻見原文。

● 5.1. Definitions

為了完成CD和EMD度量缎浇,作者首先需要將3D voxels轉(zhuǎn)化為3D point clouds扎拣。體素轉(zhuǎn)化成點云(Voxels to a point cloud),參見文中引用的原文獻素跺,作者使用了Lewiner marching cubes算法二蓝。下面是CD和EMD的計算公式:

Chamfer distance (CD)計算公式:

\text{CD}(S_1,S_2)=\frac{1}{S_1}\sum\limits_{x\in S_1}\min\limits_{y\in S_2}\|x-y\|_2 + \frac{1}{S_2}\sum\limits_{y\in S_2}\min\limits_{x\in S_1}\|x-y\|_2~~~~~~(3)

其中,對于點云對S_1,S_2\subseteq \mathbb{R}^3指厌,CD主要是找到相互之間最近的點刊愚。CD度量常被用于形狀檢索任務(wù)(shape retrieval challenges),具體參考文中引用的參考文獻踩验。

Earth Mover’s distance (EMD)計算公式:

\text{EMD}(S_1,S_2)=\frac{1}{|S_1|}\min\limits_{\phi:S_1\to S_2}\sum\limits_{x\in S_1}\|x-\phi(x)\|_2~~~~~~(4)

其中鸥诽,點云對S_1,S_2\subseteq \mathbb{R}^3|S_1| = |S_2|商玫,\phi:S_1\to S_2表示一個雙射(bijection)。由于EMD的計算十分耗時牡借,實際計算中拳昌,會采用(1+\varepsilon)的近似算法,具體參考文中引用的參考文獻钠龙。

●?5.2. Experiments

作者設(shè)計了兩個用例測試來反映不同數(shù)據(jù)集在人類視覺上的差異:

Which one looks better? 作者使用3種方法(具體參見原文參考文獻)對200張隨機挑選的椅子的圖片進行了3D形狀重建炬藤,然后分別計算3種度量方式和人類挑選的結(jié)果之間的斯皮爾曼秩相關(guān)系數(shù)(Spearman’s rank correlation coefficients),證明了CD和EMD與人類的視覺感受最相近俊鱼,如下表2刻像。

How good is it? 作者隨機挑選出400張圖片畅买,接著使用voxel預測算法DRC來重建這些圖像中物體的3D shape并闲,然后邀請15個AMT標注者對重建結(jié)果與ground-truth的相似性進行打分(from 1 to 7),最后谷羞,分別計算這些打分結(jié)果(人類視覺感受)與三種度量方式的皮爾遜相關(guān)系數(shù)(Pearson’s coefficients)帝火,再次證明了CD和EMD與人類的視覺感受最相近,如下圖7湃缎。

※?Approach

Pix3D數(shù)據(jù)集適用于多個形狀建模任務(wù):reconstruction, retrieval, and pose estimation犀填。作者設(shè)計了一種可以同時進行形狀重建和姿態(tài)估計的新模型,其本質(zhì)上是MarrNet算法(參見原文參考文獻)的拓展嗓违,其主要包含四個部分(2.5D sketch estimator九巡,2.5D sketch encoder,3D shape decoder蹂季,View estimator)冕广,作者的主要貢獻是在第四部分額外增加了一條姿態(tài)估計的分支。網(wǎng)絡(luò)架構(gòu)如下圖11偿洁。關(guān)于MarNet的四個部分撒汉,以及作者提出方法的訓練細節(jié)(Training paradigm),參見原文正文及附錄部分涕滋。

※?Experiments

實驗部分睬辐,作者在三個形狀建模任務(wù)上reconstruction, retrieval, and pose estimation,將自己的方法與其它方法進行簡單的比較宾肺。所有的測試均是在2,894張untruncated且unoccluded椅子圖像上執(zhí)行的溯饵。

●?3D shape reconstruction.

如下表3與圖8所示,作者提出的方法表現(xiàn)最好锨用,且?guī)в凶藨B(tài)估計的方法比不帶有姿態(tài)估計的方法更好瓣喊,體現(xiàn)了多任務(wù)學習(multi-task learning)的優(yōu)越性。

●?Image-based, fine-grained shape retrieval.

如下表4與圖9所示黔酥,形狀檢索的度量指標為Recall@K(參見原文提到的參考文獻)藻三,作者提出的方法再次是表現(xiàn)最好的洪橘,但不帶有姿態(tài)估計的方法比帶有姿態(tài)估計的方法更好,這是因為帶有姿態(tài)的檢索總是返回具有相似姿態(tài)的圖像棵帽,但有時結(jié)果并未在shape上更匹配熄求。

3D pose estimation.

雖然姿態(tài)角度azimuth和elevation是連續(xù)的變量,但這里還是將其近似為分類問題逗概。作者僅與方法Render for CNN比較azimuth和elevation的分類準確率(the classification accuracy)弟晚,結(jié)果表現(xiàn)更好。如下表5與圖10所示逾苫。

※?Conclusion

We have presented Pix3D, a large-scale dataset of well-aligned 2D images and 3D shapes. We have also explored how three commonly used metrics correspond to human perception through two behavioral studies and proposed a new model that simultaneously performs shape reconstruction and pose estimation. Experiments showed that our model achieved state-of-the-art performance on 3D reconstruction, shape retrieval, and pose estimation. We hope our paper will inspire future research in single-image 3D shape modeling.

毫無疑問卿城,本文展示了一個優(yōu)秀的3D形狀建模數(shù)據(jù)集Pix3D的構(gòu)建過程,很值得深入學習各個步驟铅搓。

3瑟押、新穎點

本文提出的數(shù)據(jù)集Pix3D彌補了之前同類數(shù)據(jù)集存在的缺陷,且行文嚴格論證了構(gòu)建數(shù)據(jù)集的高質(zhì)量性星掰。中規(guī)中矩多望,但又必不可少,具體novelty或者說contribution氢烘,參考摘要和Introduction章節(jié)怀偷。

4、總結(jié)

作為3D形狀建模數(shù)據(jù)集播玖,本文提出的Pix3D至少有以下幾點值得借鑒:

● 盡管到文章發(fā)表的2018年椎工,已經(jīng)存在了相當于數(shù)量的同類數(shù)據(jù)集,比如Pascal 3D+蜀踏、ObjectNet3D和IKEA维蒙,作者仍舊發(fā)覺到了它們尚存在的缺陷,并在完成新的數(shù)據(jù)集構(gòu)建后脓斩,嚴格定性地和定量地證明了這些缺陷木西,新數(shù)據(jù)集存在的必要性是必須在文章中明示且論證的

● 作者行文不拘一格随静,在有限的頁數(shù)內(nèi)十分扎實地展示了幾乎是長文期刊的大量內(nèi)容八千。也許是受限于CVPR會議文章的篇幅(必須8頁正文),作者摒棄了之前單調(diào)的三段式構(gòu)造燎猛,而是通過設(shè)置具有清晰界限的多個章節(jié)恋捆,來突出多個部分的具有同等重要性的工作內(nèi)容;

●?為了保證構(gòu)建數(shù)據(jù)集中每一個步驟的合理性重绷,作者引用了大量的參考文獻沸停,且都是強相關(guān)的。比如基于關(guān)鍵點對齊2D和3D物體時使用的EPnP和LMA算法昭卓,再比如度量3D重建效果的另外兩種方式CD和EMD愤钾∥帘酰總之,合理合法地引用先前的文獻能極大地增強文章的可讀性能颁,且讓評審和讀者信服杂瘸;

●?即使是數(shù)據(jù)集文章,作者在完成了大量dirty和expensive的工作后伙菊,也不忘增加一些創(chuàng)新性败玉。比如篩選3個AMT標注者的關(guān)鍵點標簽最優(yōu)子集,通過多種相關(guān)系數(shù)來定量化證明新數(shù)據(jù)集在人類視覺效果上更優(yōu)镜硕,基于MarrNet算法提出新的可同時進行3D重建和姿態(tài)估計的multi-task網(wǎng)絡(luò)架構(gòu)运翼。這些innovation是增加文章新穎性所必須的。

●?最后兴枯,十分重要的一點是血淌,新的大規(guī)模高質(zhì)量數(shù)據(jù)集的構(gòu)建有兩點是必不可少的:經(jīng)費和人力。文中眾多dirty work是通過眾包或付費購買AMT標注者的服務(wù)完成的念恍,這是一項耗費經(jīng)費的繁瑣工程六剥。另一方面晚顷,文中多處涉及到對比實驗峰伙,需要專業(yè)工作人員熟悉使用的算法和處理大量數(shù)據(jù),這也是文章聯(lián)名作者和機構(gòu)比較多的緣故吧该默。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瞳氓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子栓袖,更是在濱河造成了極大的恐慌匣摘,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件裹刮,死亡現(xiàn)場離奇詭異音榜,居然都是意外死亡,警方通過查閱死者的電腦和手機捧弃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門赠叼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人违霞,你說我怎么就攤上這事嘴办。” “怎么了买鸽?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵涧郊,是天一觀的道長。 經(jīng)常有香客問我眼五,道長妆艘,這世上最難降的妖魔是什么彤灶? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮批旺,結(jié)果婚禮上枢希,老公的妹妹穿的比我還像新娘。我一直安慰自己朱沃,他們只是感情好苞轿,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著逗物,像睡著了一般搬卒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上翎卓,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天契邀,我揣著相機與錄音,去河邊找鬼失暴。 笑死坯门,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的逗扒。 我是一名探鬼主播古戴,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼矩肩!你這毒婦竟也來了现恼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤黍檩,失蹤者是張志新(化名)和其女友劉穎叉袍,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刽酱,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡喳逛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了棵里。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片润文。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖衍慎,靈堂內(nèi)的尸體忽然破棺而出转唉,到底是詐尸還是另有隱情,我是刑警寧澤稳捆,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布赠法,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏砖织。R本人自食惡果不足惜款侵,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望侧纯。 院中可真熱鬧新锈,春花似錦、人聲如沸眶熬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽娜氏。三九已至拳缠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贸弥,已是汗流浹背窟坐。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绵疲,地道東北人哲鸳。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像盔憨,于是被迫代替她去往敵國和親徙菠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容