quickdraw_dataset

https://console.cloud.google.com/storage/browser/quickdraw_dataset

Quick Draw耳高!數(shù)據(jù)集

image

Quick Draw數(shù)據(jù)集是345種類別中的5000萬張圖紙的集合,由游戲玩家Quick胚吁,Draw委造!提供虎谢。繪圖被捕獲為帶時(shí)間戳的向量氏涩,標(biāo)記有元數(shù)據(jù)蚁鳖,包括要求玩家繪制的內(nèi)容以及玩家所在的國家/地區(qū)均牢。您可以在quickdraw.withgoogle.com/data上瀏覽已識別的圖紙。

我們在這里分享它們才睹,供開發(fā)人員,研究人員和藝術(shù)家探索甘邀,研究和學(xué)習(xí)琅攘。如果您使用此數(shù)據(jù)集創(chuàng)建內(nèi)容,請通過電子郵件AI實(shí)驗(yàn)告知我們松邪。

我們還在tensorflow.org上發(fā)布了用于培訓(xùn)您自己的繪圖分類器的教程和模型坞琴。

請記住,雖然這些圖紙集合是單獨(dú)審核的逗抑,但它可能仍包含不適當(dāng)?shù)膬?nèi)容剧辐。

內(nèi)容

原始主持?jǐn)?shù)據(jù)集

原始數(shù)據(jù)以ndjson文件的形式分類,按類別分隔邮府,格式如下:

鑰匙 輸入 說明
key_id 64位無符號整數(shù) 所有圖紙的唯一標(biāo)識符荧关。
字符串 提示玩家繪制的類別。
認(rèn)可 布爾值 這個(gè)詞是否被游戲識別褂傀。
時(shí)間戳 datetime 繪圖創(chuàng)建時(shí)忍啤。
國家代碼 字符串 播放器所在位置的雙字母國家代碼(ISO 3166-1 alpha-2)。
繪圖 字符串 表示矢量繪圖的JSON數(shù)組

每行包含一個(gè)圖紙仙辟。以下是單個(gè)繪圖的示例:

  { 
    “KEY_ID”: “5891796615823360”同波,
    “字”:“鼻子”,
    “COUNTRYCODE”: “AE”叠国,
    “timestamp”:“2017-03-01 20:41:36.70725 UTC”未檩,
    “認(rèn)可”:真實(shí),
    “繪圖”:[[[129,128,129,129,130??,130,131,132,132,133,133,133,133粟焊,...]]]
  }

繪圖數(shù)組的格式如下:

[ 
  [//第一擊 
    [x0冤狡,x1孙蒙,x2,x3筒溃,...]马篮,
    [y0,y1怜奖,y2浑测,y3,...]歪玲,
    [t0迁央,t1,t2滥崩,t3怕磨,...]
  ]
  [//第二次中風(fēng)
    [x0,x1脊髓,x2曼追,x3,...]短条,
    [y0导匣,y1,y2茸时,y3贡定,...],
    [t0可都,t1缓待,t2,t3渠牲,...]
  ]
  ... //額外的筆畫
]

其中xy是像素坐標(biāo)旋炒,t是自第一個(gè)點(diǎn)以來的毫秒數(shù)。```和y是實(shí)數(shù)值嘱兼,而t是整數(shù)国葬。由于用于顯示和輸入的不同設(shè)備,原始圖紙可以具有極大不同的邊界框和點(diǎn)數(shù)芹壕。

預(yù)處理數(shù)據(jù)集

我們已經(jīng)預(yù)處理并將數(shù)據(jù)集拆分為不同的文件和格式汇四,以便更快,更輕松地下載和瀏覽踢涌。

簡化的圖形文件(.ndjson)

我們簡化了向量通孽,刪除了時(shí)序信息,并將數(shù)據(jù)定位并縮放到256x256區(qū)域睁壁。數(shù)據(jù)以ndjson格式導(dǎo)出背苦,其格式與原始格式相同互捌。簡化過程是:

1.將圖形與左上角對齊,使其最小值為0行剂。
2.均勻縮放圖形秕噪,最大值為255。
3.以1像素間距重新采樣所有筆劃厚宰。
4.使用Ramer-Douglas-Peucker算法以epsilon值2.0簡化所有筆劃腌巾。

[examples / nodejs / simplified-parser.js](examples / nodejs / simplified-parser.js)中有一個(gè)示例,展示了如何在NodeJS中讀取ndjson文件铲觉。
此外澈蝙,[examples / nodejs / ndjson.md](examples / nodejs / ndjson.md)文檔詳細(xì)介紹了一組命令行工具,可以幫助探索這些相當(dāng)大的文件的子集撵幽。

二進(jìn)制文件(.bin)

簡化的圖紙和元數(shù)據(jù)也以自定義二進(jìn)制格式提供灯荧,以實(shí)現(xiàn)高效壓縮和加載。

[examples / binary_file_parser.py](examples / binary_file_parser.py)中有一個(gè)示例盐杂,展示了如何在Python中加載二進(jìn)制文件逗载。
[examples / nodejs / binary-parser.js](examples / nodejs / binary-parser.js)中還有一個(gè)示例,展示了如何讀取NodeJS中的二進(jìn)制文件链烈。

Numpy位圖(.npy)

所有簡化的圖紙都以numpy.pypy格式渲染成28x28灰度位圖撕贞。可以使用np.load()加載這些文件测垛。這些圖像是從簡化數(shù)據(jù)生成的,但是與圖形邊界框的中心對齊秧均,而不是左上角食侮。

獲取數(shù)據(jù)

該數(shù)據(jù)集在Google Cloud Storage上以ndjson文件的形式分類。請參閱Cloud Console中的文件列表目胡,或閱讀有關(guān)[訪問公共數(shù)據(jù)集]的更多信息(https://cloud.google.com/storage) / docs / access-public-data)使用其他方法锯七。

按類別分隔的完整數(shù)據(jù)集

Sketch-RNN QuickDraw數(shù)據(jù)集

該數(shù)據(jù)還用于訓(xùn)練Sketch-RNN模型。這個(gè)模型的開源TensorFlow實(shí)現(xiàn)可以在Magenta Project中找到誉己,(鏈接到GitHub repo /樹/主/品紅/模型/ sketch_rnn))眉尸。您還可以在此Google研究博客文章中閱讀有關(guān)此模型的更多信息。數(shù)據(jù)以適合輸入到遞歸神經(jīng)網(wǎng)絡(luò)的格式存儲在壓縮的.npz文件中巨双。

在此數(shù)據(jù)集中噪猾,從每個(gè)類別中隨機(jī)選擇75K樣本(70K訓(xùn)練,2.5K驗(yàn)證筑累,2.5K測試)袱蜡,使用[RDP]處理(https://en.wikipedia.org/wiki/Ramer%E2%80% 93Douglas%E2%80%93Peucker_algorithm)線條簡化,epsilon參數(shù)為2.0慢宗。每個(gè)類別都將存儲在自己的.npz文件中坪蚁,例如cat.npz奔穿。

如果您想使用超過70K的培訓(xùn)示例,我們還提供了每個(gè)類別的完整數(shù)據(jù)敏晤。它們與.full.npz擴(kuò)展一起存儲贱田。

使用數(shù)據(jù)集的項(xiàng)目

以下是一些以有趣的方式使用或展示數(shù)據(jù)集的項(xiàng)目和實(shí)驗(yàn)。有東西要補(bǔ)充嗎嘴脾?告訴我們男摧!

創(chuàng)意和藝術(shù)項(xiàng)目

數(shù)據(jù)分析

指南和教程

代碼和工具

變化

2017年5月25日:更新了Sketch-RNN QuickDraw數(shù)據(jù)集,創(chuàng)建了.full.npz互補(bǔ)集结澄。

執(zhí)照

這些數(shù)據(jù)由Google哥谷,Inc。根據(jù)[知識共享署名4.0國際許可證]提供麻献。(https://creativecommons.org/licenses/by/4.0/)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末们妥,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子勉吻,更是在濱河造成了極大的恐慌监婶,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件齿桃,死亡現(xiàn)場離奇詭異惑惶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)短纵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進(jìn)店門带污,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人香到,你說我怎么就攤上這事鱼冀。” “怎么了悠就?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵千绪,是天一觀的道長。 經(jīng)常有香客問我梗脾,道長翘紊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任藐唠,我火速辦了婚禮帆疟,結(jié)果婚禮上鹉究,老公的妹妹穿的比我還像新娘。我一直安慰自己踪宠,他們只是感情好自赔,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著柳琢,像睡著了一般绍妨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上柬脸,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天他去,我揣著相機(jī)與錄音,去河邊找鬼倒堕。 笑死灾测,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的垦巴。 我是一名探鬼主播媳搪,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼骤宣!你這毒婦竟也來了秦爆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤憔披,失蹤者是張志新(化名)和其女友劉穎等限,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芬膝,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡精刷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蔗候。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,643評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡埂软,死狀恐怖锈遥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情勘畔,我是刑警寧澤所灸,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站炫七,受9級特大地震影響爬立,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜万哪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一侠驯、第九天 我趴在偏房一處隱蔽的房頂上張望抡秆。 院中可真熱鬧,春花似錦吟策、人聲如沸儒士。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽着撩。三九已至,卻和暖如春匾委,著一層夾襖步出監(jiān)牢的瞬間拖叙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工赂乐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留薯鳍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓沪猴,卻偏偏與公主長得像辐啄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子运嗜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容