(本文是我轉(zhuǎn)自開源中國)
ML 數(shù)據(jù)集可以包含數(shù)億個數(shù)據(jù)點渤弛,每個數(shù)據(jù)點由數(shù)百(甚至數(shù)千)的特征組成己肮,幾乎不可能以直觀的方式了解整個數(shù)據(jù)集主穗。為幫助理解、分析和調(diào)試 ML 數(shù)據(jù)集堤如,谷歌開源了 Facets蒲列,一款可視化工具。
Facets 包含兩個部分 —— Facets Overview 和 Facets Dive 搀罢,允許用戶以不同的粒度查看其數(shù)據(jù)的整體圖像蝗岖。Facets Overview 可用于可視化數(shù)據(jù)的每一個特征,F(xiàn)acets Dive 用來探索個別的數(shù)據(jù)觀察集榔至。
除了開放Facets 源碼抵赢,Google 還創(chuàng)建了演示網(wǎng)站。
具體來看唧取,F(xiàn)acets Overview?可以讓用戶快速了解其數(shù)據(jù)集特征值的分布情況铅鲤,可以在相同的可視化上比較多個數(shù)據(jù)集,例如訓(xùn)練集和測試集枫弟。阻礙機器學(xué)習(xí)的常見數(shù)據(jù)問題被推到最前端彩匕,比如出乎意料的特征值、具有高比例遺失值的特征媒区、帶有不平衡分布的特征,數(shù)據(jù)集之間的特征分布偏差等等掸犬。
Facets Dive 則提供了一個易于定制的直觀界面袜漩,用于探索數(shù)據(jù)集中不同特征數(shù)據(jù)點之間的關(guān)系。它是一種交互式探索多達數(shù)萬個數(shù)據(jù)點的工具湾碎,允許用戶在高級概述和低級細節(jié)之間進行無縫切換宙攻。通過 Facets Dive,你可以控制位置介褥、顏色和視覺表現(xiàn)座掘。每個示例在可視化中被表示為單個項目,并且可以通過其特征值在多個維度上通過 faceting/bucketing 來定位點柔滔。通過結(jié)合細分和過濾溢陪,Dive 可以輕松地在復(fù)雜數(shù)據(jù)集中識別樣式和異常值。