pandas 解析json文件爲DataFrame的三種方式以及其靈活度和效率的比較

我所瞭解到的,將json串解析爲DataFrame的方式主要有一樣三種:

  1. 利用pandas自帶的read_json直接解析字符串
  2. 利用json的loads和pandas的json_normalize進行解析
  3. 利用json的loads和pandas的DataFrame直接構造(這個過程需要手動修改loads得到的字典格式)

實驗代碼如下:
# -*- coding: UTF-8 -*-
from pandas.io.json import json_normalize
import pandas as pd
import json
import time

# 讀入數據
data_str = open('data.json').read()
print data_str

# 測試json_normalize
start_time = time.time()
for i in range(0, 300):
    data_list = json.loads(data_str)
    df = json_normalize(data_list)
end_time = time.time()
print end_time - start_time

# 測試自己構造
start_time = time.time()
for i in range(0, 300):
    data_list = json.loads(data_str)
    data = [[d['timestamp'], d['value']] for d in data_list]
    df = pd.DataFrame(data, columns=['timestamp', 'value'])
end_time = time.time()
print end_time - start_time

#  測試read_json
start_time = time.time()
for i in range(0, 300):
    df = pd.read_json(data_str, orient='records')
end_time = time.time()
print end_time - start_time


實驗結果如下:

可以看出由於read_json直接對字符串進行的解析,其效率是最高的,但是其對JSON串的要求也是最高的,需要滿足其規定的格式才能夠讀取。其支持的格式可以在pandas的官網點擊打開鏈接可以看到。然而json_normalize是解析json串構造的字典的,其靈活性比read_json要高很多。但是令人意外的是,其效率還不如我自己解析來得快(自己解析時使用列表解析的功能比普通的for循環快很多)。當然最靈活的還是自己解析,可以在構造DataFrame之前進行一些簡單的數據處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章