[코드없는 프로그래밍] 딥러닝, CNN options
이전 포스팅에서는 pytorch의 CONV2D 인자들 중 in_channels, out_channel, kernel_size에 대해 알아보았다. 이번에는 stride, padding, dilation에 대해 알아보고자 한다. padding 가로 224, 세로 224, 채널의 수가 3개인 인풋 이미지로부터 채널이 16개인 아웃풋 텐서를 만들려면, Conv2D의 파라미터는 ? in_channels = 3, out_channels = 16, kernel_size = 3 가로 222, 세로 222, 16개의 depth를 가지는 아웃풋 텐서가 나온다. (16 x 222 x 222) (만약, kernel_size가 5라면 가로 220, 세로 220, 16개의 depth를 가지는 아웃풋 텐서가 나올 것 (16 x 2..
[코드없는 프로그래밍] 딥러닝 이미지 전처리
CIFAR 데이터셋 x Pytorch ToTensor() PIL 이미지 또는 ndarray를 텐서로 변환하고 그에 따라 값의 크기를 조정합니다. 이 변환은 torchscript를 지원하지 않습니다. PIL 이미지가 속하는 경우 [0, 255] 범위의 PIL 이미지 또는 numpy.ndarray(H x W x C)를 [0.0, 1.0] 범위의 모양(C x H x W)의 torch.FloatTensor로 변환합니다. 모드(L, LA, P, I, F, RGB, YCbCr, RGBA, CMYK, 1) 중 하나 또는 numpy.ndarray에 dtype = np.uint8이 있는 경우 다른 경우에는 텐서가 크기 조정 없이 반환됩니다. 출처: https://pytorch.org/vision/main/generate..
[코드없는 프로그래밍] 딥러닝, 컴퓨터비전, 이미지 읽기
Computer vision 분야에서는 '컴퓨터가 이미지를 어떻게 읽는지'를 먼저 이해해야 한다. MNIST 데이터셋을 이용하여, 컴퓨터가 이미지를 읽어들이는 방식을 이해하기 인간은 손글씨 그림을 이미지로 잘 인식하지만, 컴퓨터는 각각 픽셀의 값을 숫자로 인식한다. 가장 밝은 부분은 255, 아무 value가 없는 부분은 0 CIFAR 데이터셋을 이용하여, 컴퓨터가 이미지를 읽어들이는 방식을 이해하기 컬러 이미지의 .shape을 출력해보면 (32, 32, 3)이다. 가로가 32 픽셀, 세로가 32 픽셀이고 컬러이기 때문에 RGB 총 3개의 채널을 가진다는 것을 의미 그렇게 되면 Neural Network의 input_size는 32 x 32 x 3 = 3072가 되는데, 이게 이미지 벡터의 크기이다. 이..