https://console.cloud.google.com/storage/browser/quickdraw_dataset
Quick Draw耳高!數(shù)據(jù)集
Quick Draw數(shù)據(jù)集是345種類別中的5000萬張圖紙的集合,由游戲玩家Quick胚吁,Draw委造!提供虎谢。繪圖被捕獲為帶時(shí)間戳的向量氏涩,標(biāo)記有元數(shù)據(jù)蚁鳖,包括要求玩家繪制的內(nèi)容以及玩家所在的國家/地區(qū)均牢。您可以在quickdraw.withgoogle.com/data上瀏覽已識別的圖紙。
我們在這里分享它們才睹,供開發(fā)人員,研究人員和藝術(shù)家探索甘邀,研究和學(xué)習(xí)琅攘。如果您使用此數(shù)據(jù)集創(chuàng)建內(nèi)容,請通過電子郵件或AI實(shí)驗(yàn)告知我們松邪。
我們還在tensorflow.org上發(fā)布了用于培訓(xùn)您自己的繪圖分類器的教程和模型坞琴。
請記住,雖然這些圖紙集合是單獨(dú)審核的逗抑,但它可能仍包含不適當(dāng)?shù)膬?nèi)容剧辐。
內(nèi)容
原始主持?jǐn)?shù)據(jù)集
原始數(shù)據(jù)以ndjson
文件的形式分類,按類別分隔邮府,格式如下:
鑰匙 | 輸入 | 說明 |
---|---|---|
key_id | 64位無符號整數(shù) | 所有圖紙的唯一標(biāo)識符荧关。 |
字 | 字符串 | 提示玩家繪制的類別。 |
認(rèn)可 | 布爾值 | 這個(gè)詞是否被游戲識別褂傀。 |
時(shí)間戳 | datetime | 繪圖創(chuàng)建時(shí)忍啤。 |
國家代碼 | 字符串 | 播放器所在位置的雙字母國家代碼(ISO 3166-1 alpha-2)。 |
繪圖 | 字符串 | 表示矢量繪圖的JSON數(shù)組 |
每行包含一個(gè)圖紙仙辟。以下是單個(gè)繪圖的示例:
{
“KEY_ID”: “5891796615823360”同波,
“字”:“鼻子”,
“COUNTRYCODE”: “AE”叠国,
“timestamp”:“2017-03-01 20:41:36.70725 UTC”未檩,
“認(rèn)可”:真實(shí),
“繪圖”:[[[129,128,129,129,130??,130,131,132,132,133,133,133,133粟焊,...]]]
}
繪圖數(shù)組的格式如下:
[
[//第一擊
[x0冤狡,x1孙蒙,x2,x3筒溃,...]马篮,
[y0,y1怜奖,y2浑测,y3,...]歪玲,
[t0迁央,t1,t2滥崩,t3怕磨,...]
]
[//第二次中風(fēng)
[x0,x1脊髓,x2曼追,x3,...]短条,
[y0导匣,y1,y2茸时,y3贡定,...],
[t0可都,t1缓待,t2,t3渠牲,...]
]
... //額外的筆畫
]
其中x
和y
是像素坐標(biāo)旋炒,t
是自第一個(gè)點(diǎn)以來的毫秒數(shù)。```和y
是實(shí)數(shù)值嘱兼,而t
是整數(shù)国葬。由于用于顯示和輸入的不同設(shè)備,原始圖紙可以具有極大不同的邊界框和點(diǎn)數(shù)芹壕。
預(yù)處理數(shù)據(jù)集
我們已經(jīng)預(yù)處理并將數(shù)據(jù)集拆分為不同的文件和格式汇四,以便更快,更輕松地下載和瀏覽踢涌。
簡化的圖形文件(.ndjson
)
我們簡化了向量通孽,刪除了時(shí)序信息,并將數(shù)據(jù)定位并縮放到256x256區(qū)域睁壁。數(shù)據(jù)以ndjson
格式導(dǎo)出背苦,其格式與原始格式相同互捌。簡化過程是:
1.將圖形與左上角對齊,使其最小值為0行剂。
2.均勻縮放圖形秕噪,最大值為255。
3.以1像素間距重新采樣所有筆劃厚宰。
4.使用Ramer-Douglas-Peucker算法以epsilon值2.0簡化所有筆劃腌巾。
[examples / nodejs / simplified-parser.js](examples / nodejs / simplified-parser.js)中有一個(gè)示例,展示了如何在NodeJS中讀取ndjson文件铲觉。
此外澈蝙,[examples / nodejs / ndjson.md](examples / nodejs / ndjson.md)文檔詳細(xì)介紹了一組命令行工具,可以幫助探索這些相當(dāng)大的文件的子集撵幽。
二進(jìn)制文件(.bin
)
簡化的圖紙和元數(shù)據(jù)也以自定義二進(jìn)制格式提供灯荧,以實(shí)現(xiàn)高效壓縮和加載。
[examples / binary_file_parser.py](examples / binary_file_parser.py)中有一個(gè)示例盐杂,展示了如何在Python中加載二進(jìn)制文件逗载。
[examples / nodejs / binary-parser.js](examples / nodejs / binary-parser.js)中還有一個(gè)示例,展示了如何讀取NodeJS中的二進(jìn)制文件链烈。
Numpy位圖(.npy
)
所有簡化的圖紙都以numpy.pypy
格式渲染成28x28灰度位圖撕贞。可以使用np.load()
加載這些文件测垛。這些圖像是從簡化數(shù)據(jù)生成的,但是與圖形邊界框的中心對齊秧均,而不是左上角食侮。
獲取數(shù)據(jù)
該數(shù)據(jù)集在Google Cloud Storage上以ndjson
文件的形式分類。請參閱Cloud Console中的文件列表目胡,或閱讀有關(guān)[訪問公共數(shù)據(jù)集]的更多信息(https://cloud.google.com/storage) / docs / access-public-data)使用其他方法锯七。
按類別分隔的完整數(shù)據(jù)集
-
原始文件(
.ndjson
) -
簡化的圖紙文件(
.ndjson
) -
二進(jìn)制文件(
.bin
) -
Numpy位圖文件(
.npy
)
Sketch-RNN QuickDraw數(shù)據(jù)集
該數(shù)據(jù)還用于訓(xùn)練Sketch-RNN模型。這個(gè)模型的開源TensorFlow實(shí)現(xiàn)可以在Magenta Project中找到誉己,(鏈接到GitHub repo /樹/主/品紅/模型/ sketch_rnn))眉尸。您還可以在此Google研究博客文章中閱讀有關(guān)此模型的更多信息。數(shù)據(jù)以適合輸入到遞歸神經(jīng)網(wǎng)絡(luò)的格式存儲在壓縮的.npz文件中巨双。
在此數(shù)據(jù)集中噪猾,從每個(gè)類別中隨機(jī)選擇75K樣本(70K訓(xùn)練,2.5K驗(yàn)證筑累,2.5K測試)袱蜡,使用[RDP]處理(https://en.wikipedia.org/wiki/Ramer%E2%80% 93Douglas%E2%80%93Peucker_algorithm)線條簡化,epsilon
參數(shù)為2.0慢宗。每個(gè)類別都將存儲在自己的.npz
文件中坪蚁,例如cat.npz
奔穿。
如果您想使用超過70K的培訓(xùn)示例,我們還提供了每個(gè)類別的完整數(shù)據(jù)敏晤。它們與.full.npz
擴(kuò)展一起存儲贱田。
使用數(shù)據(jù)集的項(xiàng)目
以下是一些以有趣的方式使用或展示數(shù)據(jù)集的項(xiàng)目和實(shí)驗(yàn)。有東西要補(bǔ)充嗎嘴脾?告訴我們男摧!
創(chuàng)意和藝術(shù)項(xiàng)目
- [Deborah Schmidt]的Letter collages(http://frauzufall.de/)
- [Neil Mendoza] [http://www.neilmendoza.com/]的面部跟蹤實(shí)驗(yàn)
- Tortue的人性面孔
- 無限QuickDrawkynd.info
- Matthew Collyer的Misfire.io
- 繪制本由Dan Macnish
數(shù)據(jù)分析
Facets Dive x Quick,Draw扶平!由People + AI Research Initiative (PAIR), Google
Google Research的探索和可視化開放式全球數(shù)據(jù)集
指南和教程
代碼和工具
- Quick Draw處理Cody Ben Lewis
- Quick Draw預(yù)測模型作者:Keisuke Irie
- 隨機(jī)抽樣工具學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)非常棒
-
Ian Johnson
的SVG渲染d3.js示例(http://enja.org/) 了解更多關(guān)于此過程的信息此處 - Payal Bajaj的Sketch-RNN分類
- Thomas Wagenaar的quickdraw.js
-
Doodler來自
Krishna Sri Somepalli - Quick Draw Python APIMartin O'Hanlon
變化
2017年5月25日:更新了Sketch-RNN QuickDraw數(shù)據(jù)集,創(chuàng)建了.full.npz
互補(bǔ)集结澄。
執(zhí)照
這些數(shù)據(jù)由Google哥谷,Inc。根據(jù)[知識共享署名4.0國際許可證]提供麻献。(https://creativecommons.org/licenses/by/4.0/)