相當一部分大數據分析處理的原始數據來自關係型數據庫，處理結果也存放在關係型數據庫中。原因在於超過99%的軟件系統採用傳統的關係型數據庫，大家對它們很熟悉，用起來得心應手。

在我們正式的大數據團隊，數倉（數據倉庫Hive+HBase）的數據收集同樣來自Oracle或MySql，處理後的統計結果和明細，儘管保存在Hive中，但也會定時推送到Oracle/MySql，供前臺系統讀取展示，生成各種報表。

在這種場景下，數據庫的讀寫性能就顯得尤爲重要！

一、數據庫定位

有大神說，給我足夠強的數據庫硬件，一個GroupBy就可以滿足各種統計分析場景。

這話不假，我們一臺數百萬的金融級別Oracle一體機證明了GroupBy可以做得很強大，同時也證明了它有天花板，就是當數據更大的時候，它依然得趴下！

於是，我們需要有設計原則，有優化技巧。

核心原則：數據庫只是數據存儲的載體，在大數據中難以利用它的計算能力！

有了這個原則，就意味着數據庫將會用得“純粹”：

數據表獨立性很強，大表間很少join（這讓我想起有同學在Hive裏對兩張大表做笛卡爾乘積產生270T數據）
數據表很大，單表幾十億行很常見
索引很少，一般按主鍵查單行或者按時間查一段

二、分區存儲

在這裏，數據庫就是存儲數據的倉庫，海量數據需要拆分存儲，不可能全都擠一塊。

根據業務不同，一般有兩種拆分方式：

單表分區。常見於Oracle，每月做一個分區，數據連續方便業務處理，但要求單機性能強勁。
分表分庫。常見於MySql，分個128張表乃至4096張表也都是很平常的事情，可以用很多性能較差的機器組建集羣，但因數據不連續不便於業務處理。

具體採用哪一種拆分方式，由使用場景決定。

如果以後還要整體抽出來去做統計分析，比如原始數據和中間數據，那麼優先考慮做分區。既方便連續抽取，又方便按月刪除歷史數據，對海量數據Delete很痛苦。分區內還可以建立子分區和分區內索引。

如果用於業務數據或者最終統計結果，那麼考慮分庫後分表，按照業務維度把數據“均勻”存在不同表上。比如對單號取CRC，然後對數據表數取模。

有很多數據，屬於時序數據性質，或者日誌型，都是隻有插入，只有少量或者完全沒有Update，幾乎沒有Delete。

這種數據有個很關鍵的時間字段，確定數據什麼時候到來，比如InputDate/CreateTime/UpdateTime，可以藉助觸發器給這個字段填充當前時間。

基於時間維度抽取時序數據進行分析時，必須確保時間字段升序能夠查到所有數據，不會漏過也不會重複查某些行。

三、高效查詢

海量數據查詢，必須100%確定命中索引。要麼是code=xxx，要麼是 updatetime>=:start and updatetime<:end。

根據主鍵查詢，命中單行或少量數據；

根據時間查詢，必須合理選擇時間區間(start, end)，讓查詢結果控制在10000~20000行左右較好。

比如考慮到高峯時段，我們一般取5秒的區間進行查詢，一般得到10000~40000行。

使用數據時，可能有很多查詢條件，但其中最重要的一般是時間區間。

因爲數據很大，DBMS本身的統計信息收集工作可能很不及時，導致執行計劃選擇錯誤的索引方案，這種情況下需要手工收集信息，甚至在查詢語句裏面強制指定索引。

四、批量寫入

藉助內存計算，我們往往可以在很短的時間內計算得到數十萬乃至數百萬數據，需要寫入數據庫。

一般數據庫的Insert/Update性能只有3000~5000tps，帶着索引的負擔，難以快速把數據寫入其中。

這裏以Oracle爲例，它的OracleCommand有一個超強功能ArrayBindCount，可以對一次參數化寫入操作綁定多組（例如5000組/行）。

該方法能夠讓它得到最高寫入性能，實際業務使用得到30000tps左右。

var count = 1_000_000;
var connectStr = "User Id=scott;Password=tiger;Data Source=";

var conn = new OracleConnection(connectStr);
var command = new OracleCommand
{
    Connection = conn,
    ArrayBindCount = count,
    CommandText = "insert into dept values(:deptno, :deptname, :loc)"
};
conn.Open();

var deptNo = new Int32[count];
var dname = new String[count];
var loc = new String[count];

var deptNoParam = new OracleParameter("deptno", OracleDbType.Int32)
{
    Direction = ParameterDirection.Input,
    Value = deptNo
};
command.Parameters.Add(deptNoParam);

var deptNameParam = new OracleParameter("deptname", OracleDbType.Varchar2)
{
    Direction = ParameterDirection.Input,
    Value = dname
};
command.Parameters.Add(deptNameParam);

var deptLocParam = new OracleParameter("loc", OracleDbType.Varchar2)
{
    Direction = ParameterDirection.Input,
    Value = loc
};
command.Parameters.Add(deptLocParam);

var sw = Stopwatch.StartNew();
for (var i = 0; i < count; i++)
{
    deptNo[i] = i;
    dname[i] = i.ToString();
    loc[i] = i.ToString();
}

command.ExecuteNonQuery();

sw.Stop();

Debug.WriteLine("批量插入:" + count + "所佔時間:" + sw.ElapsedMilliseconds);

MySql和SQLite都有它獨特的批量寫入功能，並且支持netcore。

SqlServer也有批量寫入功能，但是目前還不支持netcore。

MySql方案另起一篇文章專門寫。

五、總結

關係型數據庫存儲大數據，要點就是：簡單存儲、分區分表、高效索引、批量寫入！

100億小數據實時計算平臺（大數據系列目錄）：

1，大數據分析中使用關係型數據庫的關鍵點

2，MySql如何做到600000tps的極速批量寫入

3，大數據分析中Redis經驗分享

4，如何分批處理大數據（調度系統）

新生命Redis組件（日均80億次調用）

藉助Redis做秒殺和限流的思考

大數據分析中Redis怎麼做到220萬ops

每天4億行SQLite訂單大數據測試（源碼）

End.

大數據分析中使用關係型數據庫的關鍵點

一、數據庫定位

二、分區存儲

三、高效查詢

四、批量寫入

五、總結

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

[NewLife.XCode]備份恢復與同步（數據搬運專家）

[NewLife.XCode]實體隊列（多線程生產的大數據集中保存）

[NewLife.XCode]批量添刪改操作（提升吞吐率）

[NewLife.Net]單機400萬長連接壓力測試

[NewLife.XCode]實體列表緩存（最土的方法實現百萬級性能）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結