PyTroch加载数据集

PyTroch加载数据集

使用mini-batch的原因

SGD(随机梯度下降):只使用一个样本,具有较好的随机性,可以克服鞍点的问题,但是训练的时间较长
BATCH:最大化利用向量计算的优势,提升计算速率,但性能上会遇到问题。
解决办法:使用mini-batch来均衡速率与性能。

DataLoader工作过程

使用shuffle打乱数据,再将数据分成mini-batch大小

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
# -*- coding: UTF-8 -*-
import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

# Dataset是一个抽象类,无法被实例化
class DiabetesDataset(Dataset):
def __init__(self,filepath):
xy = np.loadtxt(filepath,delimiter=',',dtype=np.float32)
self.len = xy.shape[0]
self.x_data = torch.from_numpy(xy[:,:-1])
self.y_data = torch.from_numpy(xy[:,[-1]])

# 魔法方法:实例化后,该对象把对应下标的数据拿出来
def __getitem__(self, index):
return self.x_data[index], self.y_data[index]

def __len__(self):
return self.len

dataset = DiabetesDataset('./diabetes_data/diabetes.csv.gz')

# DataLoader是一个加载器,用于加载数据,可以进行实例化
# dataset:数据集对象 batch_size:批量数 shuffle:数据集是否打乱顺序
# num_workers 读取数据线程数
train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=0)

# 定义模型
class Model(nn.Module):
def __init__(self):
super(Model,self).__init__()
self.linear1 = nn.Linear(8,16)
self.linear2 = nn.Linear(16,32)
self.linear3 = nn.Linear(32,64)
self.linear4 = nn.Linear(64,32)
self.linear5 = nn.Linear(32,1)
self.sigmoid = nn.Sigmoid()
self.relu = nn.ReLU(inplace=True)

def forward(self,x):
x = self.relu(self.linear1(x))
x = self.relu(self.linear2(x))
x = self.relu(self.linear3(x))
x = self.relu(self.linear4(x))
x = self.sigmoid(self.linear5(x))

return x

model = Model()
loss_function = nn.BCELoss(reduction='mean')
optimizer = torch.optim.Adam(model.parameters(),lr=0.1)

loss_list = []

for epoch in range(1000):
# lteration:迭代次数 = 样本数 / mini-batch
# 内层循环每次跑一个mini-batch
running_loss = 0.0
for i,(inputs,labels) in enumerate(train_loader,0):
# enumerate() 可以用于迭代/遍历的数据对象组合为一个索引序列
y_pred = model(inputs)
loss = loss_function(y_pred,labels)

optimizer.zero_grad()
loss.backward()
optimizer.step()

running_loss += loss.data.item()

loss_list.append(running_loss)

plt.plot(range(1000), loss_list)
plt.xlabel('Epoch')
plt.ylabel('Cost')
plt.show()
Donate comment here