labelme工具解析json文件

由於自己的處理數據需求和labelme的直接使用處理還有差距,所以特此開發了新的工具,鳴謝我的合作伙伴,由於labelme工具解析json開源,則採用使得數據組織格式和標準json相同的方式。

解析代碼如下:

修改文件爲:D:\Users\Pangzhennan\Anaconda3\envs\labelme\Lib\site-packages\labelme\cli\json_to_dataset.py

此處路徑同批量操作文件的代碼。

# -*- coding: utf-8 -*-
import argparse
import json
import os
import os.path as osp
import warnings

import PIL.Image
import yaml

from labelme import utils
import base64


def main():
    warnings.warn("This script is aimed to demonstrate how to convert the\n"
                  "JSON file to a single image dataset, and not to handle\n"
                  "multiple JSON files to generate a real-use dataset.")
    parser = argparse.ArgumentParser()
    parser.add_argument('json_file')
    parser.add_argument('-o', '--out', default=None)
    args = parser.parse_args()

    json_file = args.json_file
    # 該段代碼在此處無意義
    '''
    if args.out is None:
        out_dir = osp.basename(json_file).replace('.', '_')
        out_dir = osp.join(osp.dirname(json_file), out_dir)
    else:
        out_dir = args.out
    if not osp.exists(out_dir):
        os.mkdir(out_dir)
    '''
    list = os.listdir(json_file)
    for i in range(0, len(list)):
        path = os.path.join(json_file, list[i])
        '''
        print('path===================')
        print(path)
        kkk = open(path)
        print(kkk)
        print(type(kkk))
        '''
        if os.path.isfile(path):
            

            #with open(path,'r') as load_f:  #pang_add method1;
                #data = json.load(load_f)

            #data = json.load(open(path))  #pang_add method2;
            data = json.load(open(path, 'r'))  #pang_add method2;
            '''
            print('data===================')
            print(data)
            print(type(data))
            '''
            img = utils.img_b64_to_array(data['imageData'])
            lbl, lbl_names = utils.labelme_shapes_to_label(img.shape, data['shapes'])

            captions = ['%d: %s' % (l, name) for l, name in enumerate(lbl_names)]
            
            lbl_viz = utils.draw_label(lbl, img, captions)
            out_dir = osp.basename(list[i]).replace('.', '_')
            out_dir = osp.join(osp.dirname(list[i]), out_dir)
            if not osp.exists(out_dir):
                os.mkdir(out_dir)

            PIL.Image.fromarray(img).save(osp.join(out_dir, 'img.png'))
            PIL.Image.fromarray(lbl).save(osp.join(out_dir, 'label.png'))
            PIL.Image.fromarray(lbl_viz).save(osp.join(out_dir, 'label_viz.png'))

            with open(osp.join(out_dir, 'label_names.txt'), 'w') as f:
                for lbl_name in lbl_names:
                    f.write(lbl_name + '\n')

            warnings.warn('info.yaml is being replaced by label_names.txt')
            info = dict(label_names=lbl_names)
            with open(osp.join(out_dir, 'info.yaml'), 'w') as f:
                yaml.safe_dump(info, f, default_flow_style=False)

            print('Saved to: %s' % out_dir)


if __name__ == '__main__':
    main()

遇到的問題:

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

爲了解決該問題,一度認爲是自己的json中的字典和內容的格式出現了問題,經排查之後,發現自己的工具保存的json格式爲utf-8格式編碼,而正常應該是ansi或者cp936(gbk)格式編碼。

解決方案爲:1.改變工具對於json的編碼格式;2.將utf-8編碼格式的json文件轉化爲ansi或者cp936編碼格式的文件。

關於utf-8格式和cp936格式的關係:

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長字符編碼,又稱萬國碼。

GBK全稱《漢字內碼擴展規範》(Chinese Internal Code Specification),cp936等同於GBK。

ANSI是一種字符代碼,爲使計算機支持更多語言,通常使用 0x00~0x7f 範圍的1 個字節來表示 1 個英文字符。超出此範圍的使用0x80~0xFFFF來編碼,即擴展的ASCII編碼。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章