原创 spark3.0-新特性

spark 3.0 終於出了!!! Apache Spark 3.0.0是3.x系列的第一個發行版。投票於2020年6月10日獲得通過。此版本基於git標籤v3.0.0,其中包括截至6月10日的所有提交。Apache Spark

原创 hive-hiveserver2配置負載均衡(nginx)

Nginx編譯安裝 wget http://nginx.org/download/nginx-1.16.1.zip tar cd /nginx-1.16.1 yum -y install gcc gcc-c++ make zli

原创 hadoop各版本特性

0.14.1 HDFS中更好的校驗和。校驗和不再存儲在並行HDFS文件中,而是由數據節點與塊一起直接存儲。這對於命名節點更加有效,並且還提高了數據完整性。 管道:MapReduce的C ++ API Eclipse插件,包括HDF

原创 大數據-jdbc並行插入數據

使用forkjoin和Guaua的集合類 final int para_num = (int) (Runtime.getRuntime().availableProcessors() / 0.8); l

原创 java-操作csv文件

寫 import java.io.BufferedWriter; import java.io.FileOutputStream; import java.io.IOException; import java.io.Output

原创 mysql-innodb-索引

聚集索引 主鍵索引 的InnoDB術語 。 表存儲是基於主鍵列的值組織的,以加快涉及主鍵列的查詢和排序。爲了獲得最佳性能,請根據對性能要求最嚴格的查詢仔細選擇主鍵列。因爲修改聚集索引的列是一項昂貴的操作,所以請選擇很少更新或永遠不

原创 mysql-innodb-MVCC

概述 MVCC是“ 多版本併發控制 ”的 縮寫。 這種技術可以使具有特定 隔離級別的InnoDB 事務執行 一致的讀取操作。也就是說,查詢其他事務正在更新的行,並查看發生這些更新之前的值。通過允許查詢繼續進行而無需等待其他事務持有

原创 操作系統-進程同步-信號量機制

整型信號量 1.兩個進程互斥訪問一個臨界資源 信號量s 初始值爲 1 var s integer wait(s) //用於申請資源 { while s<=0 do no-op; s=s-1 } signal(s) //

原创 mysql-innoDB概述

本文內容基於MySQL5.7 定義 InnoDB是一種兼顧了高可靠性和高性能的通用存儲引擎。在MySQL 5.7中,InnoDB是默認的MySQL存儲引擎。除非您配置了其他默認存儲引擎,否則發出CREATE TABLE不帶ENGI

原创 mysql-innodb-內存結構

Buffer Pool 緩衝池是主內存中的一個區域,在InnoDB訪問表和索引數據時會在其中進行 緩存。緩衝池允許直接從內存中直接處理經常使用的數據,從而加快了處理速度。在專用服務器上,通常將多達80%的物理內存分配給緩衝池。 爲

原创 kafka-消息防丟失和消息去重

如何防止數據丟失 生產者:同步發送消息,且消息配置爲-1或all,leader分區和所有follwer都寫到磁盤裏。 異步模式下,爲防止緩衝區滿,可以在配置文件設置不限制阻塞超時時間,當緩衝區滿時讓生產者一直處於阻塞狀態。 生產者

原创 hive-各版本特性

0.10.0 [HIVE-887] - Allow SELECT without a mapreduce job [HIVE-895] - Add SerDe for Avro serialized data [HIVE-96

原创 atlas-入門使用

概述 Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業能夠有效地滿足Hadoop中的合規性要求,並允許與整個企業數據生態系統集成。 Apache Atlas爲組織提供了開放的元數據管理和治理功能,以建立其數據資產的目錄,對

原创 hadoop-生態兼容性

hbase - jdk hbase - hadoop hive-hadoop

原创 高併發-生產消費模型(阻塞隊列)

class Producer implements Runnable { private final BlockingQueue<String> queue; Producer(BlockingQueue q)