Pytorch 數(shù)據(jù)加載器: Dataset 和 DataLoader

為什么要用筛谚?

習慣于自己實現(xiàn)業(yè)務邏輯的每一步碧磅,以至于沒有意識去尋找框架本身自有的數(shù)據(jù)預處理方法俊犯,Pytorch的Dataset 和 DataLoader便于加載和迭代處理數(shù)據(jù)闪彼,并且可以傻瓜式實現(xiàn)各種常見的數(shù)據(jù)預處理敬拓,以供訓練使用啼辣。

調(diào)包俠

from torch.utils.data.dataset import Dataset, DataLoader
from torchvision import transforms  ##可方便指定各種transformer啊研,直接傳入DataLoader

Dataset 和 DataLoader是什么?

Dataset是一個包裝類,可對數(shù)據(jù)進行張量(tensor)的封裝党远,其可作為DataLoader的參數(shù)傳入削解,進一步實現(xiàn)基于tensor的數(shù)據(jù)預處理。

如何處理自己的數(shù)據(jù)集沟娱?

很多教程里分兩種情況:數(shù)據(jù)同在一個文件夾氛驮;數(shù)據(jù)按類別分布在不同文件夾。其實剛開始我是一頭霧水济似,后來總結(jié)后發(fā)現(xiàn)矫废,兩種情況均可用一種方法來處理,即:只要有一份文件砰蠢,記錄圖像數(shù)據(jù)路徑及對應的標簽即可磷脯,如下所示:

record.txt 示例:
    pic_path                          label
./pic_01/aaa.bmp                        1
./pic_22/bbb.bmp                        0
./pic_03/ccc.bmp                        3
./pic_01/ddd.bmp                        1
            ...

其實有了上面的一份數(shù)據(jù)對照表文件,即可不用管是否在同一文件夾或是不同文件夾的情況娩脾,我自己感覺是要方便一些赵誓。下面就按照這種方法來介紹如何使用。

第一步:實現(xiàn)MyDataset類

既然是要處理自己的數(shù)據(jù)集柿赊,那么一般情況下還是寫一個自己的Dataset類俩功,該類要繼承Dataset,并重寫 __ init __() 和 __ getitem __() 兩個方法碰声。

例如:
class MyDataset(Dataset):
    def __init__(self, record_path, is_train=True):
        ## record_path:記錄圖片路徑及對應label的文件
        self.data = []
        self.is_train = is_train
        with open(record_path) as fp:
            for line in fp.readlines():
                if line == '\n':
                    break
                else:
                    tmp = line.split("\t")
                    ## tmp[0]:某圖片的路徑诡蜓,tmp[1]:該圖片對應的label
                    self.data.append([tmp[0], tmp[1]])
        # 定義transform,將數(shù)據(jù)封裝為Tensor
        self.transformations = transforms.Compose([transforms.ToTensor()])

    # 獲取單條數(shù)據(jù)
    def __getitem__(self, index):
        img = self.transformations (Image.open(self.data[index][0]).resize((256,256)).convert('RGB'))
        label = int(self.data[index][1])
        return img, label

    # 數(shù)據(jù)集長度
    def __len__(self):
        return len(self.data)

上面是一個簡單的MyDataset類胰挑,僅依賴記錄了圖像位置以及相應label的record文件蔓罚,實現(xiàn)對數(shù)據(jù)集的讀取和Tensor的轉(zhuǎn)換

當然,根據(jù)個人對數(shù)據(jù)預處理的需求不同瞻颂,該類的實現(xiàn)可進一步完善豺谈,例如:

class MyDataset(Dataset):
    def __init__(self, base_path, is_train=True):
        self.data = []
        self.is_train = is_train
        with open(base_path) as fp:
            for line in fp.readlines():
                if line == '\n':
                    break
                else:
                    tmp = line.split("\t")
                    self.data.append([tmp[0], tmp[1]])
        ## transforms.Normalize:對R G B三通道數(shù)據(jù)做均值方差歸一化,因此給出下方三個均值和方差
        normMean = [0.49139968, 0.48215827, 0.44653124]
        normStd = [0.24703233, 0.24348505, 0.26158768]
        normTransform = transforms.Normalize(normMean, normStd)
        ## 可由 transforms.Compose([transformer_01, transformer_02, ...])實現(xiàn)一些數(shù)據(jù)的處理和增強
        self.trainTransform = transforms.Compose([       ## train訓練集處理
            transforms.RandomCrop(32, padding=4),        ## 圖像裁剪的transforms
            transforms.RandomHorizontalFlip(p=0.5),      ## 以50%概率水平翻轉(zhuǎn)
            transforms.ToTensor(),                       ## 轉(zhuǎn)為Tensor形式
            normTransform                                ## 進行 R G B數(shù)據(jù)歸一化
        ])
        ## 測試集的transforms數(shù)據(jù)處理
        self.testTransform = transforms.Compose([  
            transforms.ToTensor(),
            normTransform
        ])

    # 獲取單條數(shù)據(jù)
    def __getitem__(self, index):
        img = self.trainTransform(Image.open(self.data[index][0]).resize((256,256)).convert('RGB'))
        if not self.is_train:
            img = self.testTransform(Image.open(self.data[index][0]).resize((256, 256)).convert('RGB'))
        label = int(self.data[index][1])
        return img, label

    # 數(shù)據(jù)集長度
    def __len__(self):
        return len(self.data)

或許已經(jīng)看出來了贡这,所有可能的數(shù)據(jù)處理或數(shù)據(jù)增強操作茬末,都可通過transforms來進行調(diào)用與封裝,是不是一下變得很方便呢盖矫!

第二步:將MyDataset裝入DataLoader中

MyDataset類中的init方法要求傳入記錄數(shù)據(jù)路徑及l(fā)abel的文件丽惭,因此可如下所示進行操作:

import MyDataset
train_data = MyDataset.MyDataset("./train_record.txt")
test_data = myDataset.MyDataset("./test_record.txt")
kwargs = {'num_workers': 1, 'pin_memory': True} if args.cuda else {}
trainLoader = DataLoader(dataset=train_data,batch_size=64,shuffle=True,**kwargs)
testLoader = DataLoader(dataset=test_data,batch_size=64,shuffle=False, **kwargs)

這樣,便生成了trainLoader 和testLoader

第三步:在訓練中使用DataLoader
for epoch in range(1, args.nEpochs + 1):
     ## 定義好的train方法
     train(args, epoch, model, trainLoader, optimizer)
     ## 定義好的val方法辈双,用于測試或驗證
     val(args, epoch, model, testLoader, optimizer)

最后

以上便是使用 Dataset和DataLoader處理自己數(shù)據(jù)集的通用方法责掏,當然本次僅記錄了圖片數(shù)據(jù)的使用方法,后續(xù)記錄文本數(shù)據(jù)處理方法湃望。

彩蛋

ooh~~ 那么對于Pytorch自帶數(shù)據(jù)集如果處理呢换衬?
若直接使用 CIFAR10 數(shù)據(jù)集局义,可以如下處理:

import torchvision.datasets as dset
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

normMean = [0.49139968, 0.48215827, 0.44653124]
normStd = [0.24703233, 0.24348505, 0.26158768]
normTransform = transforms.Normalize(normMean, normStd)
trainTransform = transforms.Compose([
        transforms.RandomCrop(32, padding=4),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        normTransform
    ])
testTransform = transforms.Compose([
        transforms.ToTensor(),
        normTransform
    ])

kwargs = {'num_workers': 1, 'pin_memory': True} if args.cuda else {}
trainLoader = DataLoader(dset.CIFAR10(root='cifar', train=True, download=True,
                     transform=trainTransform),batch_size=64, shuffle=True, **kwargs)
testLoader = DataLoader(dset.CIFAR10(root='cifar', train=False, download=True,
                     transform=testTransform),batch_size=64, shuffle=False, **kwargs)

其實也就是 torchvision.datasets將這些共用數(shù)據(jù)集本身就做了 Dataset類的封裝,因此直接調(diào)用冗疮,傳入你想要的transforms萄唇,再丟給DataLoader即可。

轉(zhuǎn)載注明出處:http://www.reibang.com/p/b558c538eac2

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末术幔,一起剝皮案震驚了整個濱河市另萤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌诅挑,老刑警劉巖四敞,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異拔妥,居然都是意外死亡忿危,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門没龙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铺厨,“玉大人,你說我怎么就攤上這事硬纤〗庾遥” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵筝家,是天一觀的道長洼裤。 經(jīng)常有香客問我,道長溪王,這世上最難降的妖魔是什么腮鞍? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮莹菱,結(jié)果婚禮上移国,老公的妹妹穿的比我還像新娘。我一直安慰自己芒珠,他們只是感情好桥狡,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布搅裙。 她就那樣靜靜地躺著皱卓,像睡著了一般。 火紅的嫁衣襯著肌膚如雪部逮。 梳的紋絲不亂的頭發(fā)上娜汁,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機與錄音兄朋,去河邊找鬼掐禁。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的傅事。 我是一名探鬼主播缕允,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蹭越!你這毒婦竟也來了障本?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤响鹃,失蹤者是張志新(化名)和其女友劉穎驾霜,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體买置,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡粪糙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了忿项。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓉冈。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖轩触,靈堂內(nèi)的尸體忽然破棺而出洒擦,到底是詐尸還是另有隱情,我是刑警寧澤怕膛,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布熟嫩,位于F島的核電站,受9級特大地震影響褐捻,放射性物質(zhì)發(fā)生泄漏掸茅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一柠逞、第九天 我趴在偏房一處隱蔽的房頂上張望昧狮。 院中可真熱鬧,春花似錦板壮、人聲如沸逗鸣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽撒璧。三九已至,卻和暖如春笨使,著一層夾襖步出監(jiān)牢的瞬間卿樱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工硫椰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留繁调,地道東北人萨蚕。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像蹄胰,于是被迫代替她去往敵國和親岳遥。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355