將RRD數據庫中數據導入MYSQL中

一、RRD數據庫及RRDTOOL簡介

意爲Round Robin Database。設計理念爲按照round-robin的方式進行存儲，在一個週期之後（可自己定義），新的

數據會覆蓋掉原來的數據。所以RRD數據庫適合用來存儲動態數據，並且不需長期存儲。因爲是週期性的覆蓋舊的數據

所以數據庫的大小基本上就會固定下來，並不會隨着時間而增大。

RRDTOOL是由Tobias Oetiker開發的自由軟件，使用RRD作爲存儲格式。RRDTOOL提供了很多工具用來對RRD數據庫

進行操作，包括創建，更新，查詢，以及生成顯示圖等。RRDTOOL同時也提供了很多語言的API以方便操作。

Ganglia是一個分佈式的監控系統，採用RRD數據庫進行數據存儲和可視化。Hadoop源碼包裏即有一個與ganglia相關

的配置文件，修改一些參數和對ganglia進行一些設置即可對hadoop集羣進行監控。每個不同的屬性的數據都存在一個

RRD數據庫裏。

二、將數據導入MYSQL中

也會存在這樣的情況，可能想對rrdtool採集到的數據進行長期存儲，從而進行一些分析。而RRD數據庫的數據是不斷

更新的，雖然也可以保留長期的數據，但精度不夠。比如說一個RRD數據庫的步長爲15秒，也就是說，每隔15秒，

就會有一個新的值存入（比如內存使用率），同時覆蓋一箇舊的值。一個RRD數據庫存儲5761個這樣的數據（一天+15

秒).而且隨着時間的推移總是存儲最近一天的數據。然後在通過這些值不斷地計算步長更高的值，比如我們可以通過

這些15秒的數據算出360s的數據（平均值），然後以360s爲步長將這些值再存進去，不過這時候可以存儲的時間區間就

更長了，同樣的行數可以存儲24天的數據。以此類推，也可以以一天爲單位存儲一年的數據，不過這時候的精度就只有

一天了，那些舊的15s的數據都已經被覆蓋掉了。如果想要把這些數據都存儲起來，就需要通過腳本定時進行數據導入。

LINUX上做這些是很方便的，perl,python,lua,ruby都是不錯的選擇，shell也可以。然後用crond設置在一定時間

定時執行即可。以下是python的示例代碼：

（注：python學的一般，基本上是邊看書，邊寫的代碼，問題不少，請各位指正。）

首先是初始化，創建數據庫及相應的表：

import os

import MySQLdb

import string

root="/var/lib/ganglia/rrds/hap-clu"

dirs=os.listdir(root)

map1=string.maketrans('.','_')

map2=string.maketrans('-','_')

conn=MySQLdb.connect(host='localhost', user='root',passwd='123456')

cursor=conn.cursor()

for onedir in dirs:

dbname=onedir.translate(map1).translate(map2)

cursor.execute("create database if not exists "+dbname)

conn.commit()

conn.select_db(dbname)

# print onedirname

print "DB:"+dbname+" ."

files=os.listdir(root+"/"+onedir)

for onefile in files:

tablename=onefile[:-4].translate(map1)

if(dbname=="__SummaryInfo__"):

cursor.execute("create table if not exists "+tablename+"(time_id int not null primary key,value varchar(30),num varchar(30))")

else:

cursor.execute("create table if not exists "+tablename+"(time_id int not null primary key,value varchar(30))")

conn.commit()

# print "CREATE TABLE "+tablename

print "CREATE DATABASE "+dbname+" "

cursor.close();

這裏面有不少說明的地方：

1.存儲的目錄：ganglia裏面默認是這個目錄，不過可以修改。其他不同應用也應該不同。最後的那個hap-clu是集羣

的名字。在這個目錄下，每個節點佔一個目錄，目錄名一般爲IP地址，最後還有一個summary的目錄。對應着，爲每個

目錄（節點）創建一個數據庫，每個屬性一個表。

2.MYSQL數據庫和表的命名規則中不允許有"."和"-"，所以對應的數據庫名和表名要做相應的轉換。這裏使用的是

translate函數。

3.原本以爲這個腳本只需執行一次，不過在實際應用過程中，發現表的數量和數據庫的數量可能會增加。比如有新添加的

節點，就需要及時爲它創建數據庫。對於一些已存在的節點，有可能有些屬性的數據是後來才檢測到的。比如我碰到的情況

就是運行了一段時間之後關於swap的統計信息纔出來，RRD數據庫也才創建。我不知道這是配置的問題還是常態。但爲了

順利運行，這個腳本也要每天和插入數據的腳本一樣定時運行，並且在後者之前。

插入數據的腳本：

import os

import commands

import MySQLdb

import string

import rrdtool

#from xml.etree.ElementTree import ElementTree

#working directory

root="/var/lib/ganglia/rrds/hap-clu"

dirs=os.listdir(root)

#mysql table name limit

map1=string.maketrans('.','_')

map2=string.maketrans('-','_')

conn=MySQLdb.connect(host='localhost', user='root',passwd='123456')

cursor=conn.cursor()

for onedir in dirs:

dbname=onedir.translate(map1).translate(map2)

conn.select_db(dbname)

print "DB:"+dbname+" ."

files=os.listdir(root+"/"+onedir)

os.chdir(root+"/"+onedir)

for onefile in files:

# it seems that all is AVERAGE

tablename=onefile[:-4].translate(map1)

data=rrdtool.fetch(onefile,"AVERAGE")

firsttime=data[0][0]

count=0

while count < 5761:

time=firsttime+15*count

value=data[2][count][0]

if value==None:

count+=1

continue

if dbname=="__SummaryInfo__":

num=data[2][count][1]

fvalue=[time,str(value),str(num)]

try:

cursor.execute("insert into "+tablename+" values(%s,%s,%s)",fvalue)

except MySQLdb.IntegrityError:

pass

else:

fvalue=[time,str(value)]

try:

cursor.execute("insert into "+tablename+" values(%s,%s)",fvalue)

# print "OK"+str(count)

except MySQLdb.IntegrityError:

pass

count+=1

conn.commit()

print "UPDATING TABLE "+tablename

cursor.close();

說明：

1.python有RRDTOOL的模塊，相應的命令都已經可以通過模塊內的函數直接調用，並且結果是Python的列表或者元組

，很容易遍歷。另外有一種方法就是通過調用外部命令將rrd數據庫導出到XML中（RRDTOOL內置有此功能），好處是XML

裏面的數據極其相近，缺點是太繁瑣，效率也不高，還要解析XML。

2.count是RRD裏存儲的數據的行數，這裏爲了省事直接設置成了默認的值。嚴謹的話應該是先通過RRDTOOL INFO取得

想關的結構信息，得到這個值，然後再調用。rrdtool.fetch即可取得所存儲的所有值。

3.關於commit。剛開時對API不熟悉，沒有加這一句，結果數據都沒導進去。第一次加在每次insert 之後，結果插入

速度奇慢，更新一次要差不多一天，根本沒有用。放到後面之後就很快了。

4.因爲插入的頻率和RRD更新的頻率不一樣，爲了保證數據的連續性（不丟失），插入的頻率要比更新的頻率高。這樣會有

很多重複的數據，這裏用主鍵（時間戳，爲UNIX秒數）和IntegrityError來跳過那些已經插入的數據。當初這樣做的時候

已經考慮到一個問題，就是當表裏原有行數很多時，到後面插入的速度有多慢？（單個表每天更新的數據爲5700行左右，一個

月爲17萬行左右，一年就會超過200萬行）。現在我運行的結果是表中已有5萬行數據，插入速度並沒有明顯的減慢，想接着再

運行一段時間觀察一下。如果太慢就得換一個方法。

zhangtian6691844

發佈了155 篇原創文章 · 獲贊 40 · 訪問量 35萬+

他的留言板關注

將RRD數據庫中數據導入MYSQL中

監視Linux服務器的性能

CentOS-Mysql-Access denied for user root 更換root 密碼

在CentOS系統下，主要有兩種方法設置自己安裝的程序開機啓動。

ganglia監控的數據 rrd數據文件

12306---搶票分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結