原创 Hadoop權威指南(第三版)筆記

第一章: 爲什麼不用數據庫對大量硬盤上的大規模數據進行批量分享,而要用map reduce呢? 關乎計算機硬盤的發展趨勢:尋址時間的提升遠不敵傳輸速率的提升。尋址是導致硬盤操作延遲的主要原因。 另,M/R對半結構、非結構話數據更有效。 第

原创 大數據技術棧速覽之:Parquet

幾種hdfs文件存儲格式的區別 Text:原始存儲, RCFile:結合列存儲和行存儲的優缺點,Facebook於是提出了基於行列混合存儲的RCFile,它是基於SEQUENCEFILE實現的列存儲格式,它即滿足快速數據加載和動態負載高適

原创 中臺那些事兒

大數據“網紅”阿里雲數據中臺簡介 數據中臺的定義 阿里巴巴數據中臺是阿里雲上實現數據智能的最佳實踐,它是由數據中臺方法論+組織+工具所組成,數據中臺方法論採用實現企業數據的全局規劃設計,通過前期的設計形成統一的數據標準、計算口徑,統一保

原创 大數據技術棧速覽之:YARN

在Hadoop 2.0及後續版本中,MapReduce的調度部分被外部化並重新編寫爲名爲Yarn的新組件,但Yarn執行調度與Hadoop上運行的任務類型無關,Yarn可在Hadoop上執行除MapReduce以外的工作。 YARN生產背

原创 閱讀筆記(2019.10.11)

目錄 《數據資產管理》 當數據分析成爲一種搜索…… 構建智慧衆籌的數據應用商店 《數據虛擬化》  《企業IT架構轉型之道 阿里巴巴中臺戰略思想與架構實戰》 《增長黑客》​ 《大數據之路:大數據實踐》 《大數據大創新:阿里巴巴雲上數據中臺之

原创 大數據技術棧速覽之:KUDU

Kudu是什麼?有什麼特性?它和Hadoop生態的關係是什麼?有了HDFS和HBase,爲什麼還要用kudu? 目錄   Kudu產生的背景 Kudu是什麼 kudu的使用場景 Kudu設計優勢 kudu使用時的優勢 kudu使用時的

原创 Spring Boot整合Neo4j實戰

關於Spring Boot整合Neo4j的介紹很多,但自己上手參考的時候,仍然有些東西雲裏霧裏有點暈。慢慢才摸出正道。 聊記,分享。   一、各組件直接的搭檔配合和版本密切相關。版本不合適,配合不上。    我是用的版本搭檔是:     

原创 Artha在線JVM調試神器

可遠程觀察jvm的工具:$JAVA_HOME/bin/jvisualvm.exe  觀察堆內存情況: heap dump?N個G,數小時---No。 jmap -histo 1300 | head -20  可查看佔用內存最多的類。  

原创 Flink vs Storm

[筆記]知乎-用Flink取代Spark Streaming!知乎實時數倉架構演進 知乎的實時數倉實踐以及架構的演進: 實時數倉 1.0 版本,主題:ETL 邏輯實時化,技術方案:Spark Streaming。 實時數倉 2.0 版本,

原创 技術人員的價值是什麼?技術的價值體現在賦能業務

       技術人員的價值是什麼?成就感(更炫的技術,功能邏輯設計複雜,業務方滿意)?         技術的價值體現在賦能業務。判斷一家公司的科技實力,一個直觀的標準就是看它對業務的支持、服務和賦能好不好。實現科技支持、科技賦能、科技

原创 大數據技術棧速覽之:Spark

Spark Streaming + Kafka集成 https://www.cnblogs.com/frankdeng/p/9308585.html Receiver方式 vs Direct方式::各自的優劣勢。 Spark stream

原创 互聯網技術經理工作最佳實踐

來源:孔凡勇(雲狄)的分享:《細說Tech Leader在開發團隊的核心職責》 開發規範 協作流程 配置規範 統一配置規範,包括IDE、maven、git、各種環境參數等。這些配置都放在WIKI上,方便新來的同學看。 命名規範 包、類、

原创 Java 5以後各個版本新特性

https://blog.51cto.com/11038441/2331685?source=dra Java5開發代號爲Tiger(老虎),於2004-09-30發行 特性列表 泛型 枚舉 自動裝箱拆箱 可變參數 註解

原创 Spring集成Kafka小記

POM引入spring-kafka <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifact

原创 2020年1月零散筆記

MySQL是如何對一條簡單的更新語句加鎖的? https://mp.weixin.qq.com/s?__biz=MzIzMzgxOTQ5NA==&mid=2247490453&idx=2&sn=6e7f0476696432f267a045