ML训练数据格式报错

环境

tensorflow 1.14.0
python 3.7
object detection API (假定看官熟知API的使用过程)

报错内容

2020-06-18 16:20:05.679704: W tensorflow/core/framework/op_kernel.cc:1502] OP_REQUIRES failed at queue_op.cc:109 : Invalid argument: Shape mismatch in tuple component 18. Expected [1,?,?,3], got [1,379,640,4]

接下来是排错过程,如果嫌啰嗦可直接查看最后面的总结代码部分。
根据报错信息的字面意思,图片集中存在4通道的图片。则考虑用以下代码将图片转换为3通道。

import os
from PIL import Image

images_path = r'E:\image_collect\test'
for img in os.listdir(images_path):
    a = Image.open(os.path.join(images_path, img))
    if a.mode == 'RGBA':  # 4通道转为3通道
        r, g, b, a = a.split()
        imma = Image.merge('RGB', (r, g, b))
        imma.save(os.path.join(images_path, img))
    elif a.mode != 'RGB':
        print(img)
        imm = a.conver('RGB')  # 1通道改为3通道
        imm.save(os.path.join(images_path, img))
    # 如果通道显示为L,表示为全透,需手动用window自带的画图打开图片,另存为jpeg格式。

表面上看没啥大问题,就直接生成tfrecord格式文件,并再次开始训练。然而,仍出现上述报错。开启debug模式后发现,Image.open读取的图片信息中,部分图片的format居然还是’PNG’,‘BMP’,它的tile里还有一个zip的参数。有人说可以用png的图片格式,但方便起见,全改成jpeg的好了。
考虑把上述代码中的某一行改为:

imma.save(os.path.join(images_path, img), "JPEG")

总结代码

import os

import cv2
from PIL import Image

images_path = r'E:\image_collect\test'
for img in os.listdir(images_path):
    imma = Image.open(os.path.join(images_path, img))
    if imma.mode == 'RGBA':  # 4通道转为3通道
        r, g, b, a = imma.split()
        imma = Image.merge('RGB', (r, g, b))
    elif imma.mode != 'RGB':
        imma = imma.conver('RGB')  # 1通道改为3通道
    # 如果通道显示为L,表示为全透,需手动用window自带的画图打开图片,另存为jpeg格式。
    imma.save(os.path.join(images_path, img), "JPEG")
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章