原创 AWS認證解決方案架構師助理 - AWS Snowball筆記

Snowball - Large Scale Transport (physical data transport service) Low Cost It cost thousands of dollars to trans

原创 AWS認證解決方案架構助理 - AWS VPC筆記

Virtual Private Cloud Provision a logically isolated section of the AWS Cloud where you can launch AWS resources in

原创 AWS認證解決方案架構師助理 - AWS S3筆記

S3 (Simple Storage Service) object-based storage service serverless storage in the cloud Don’t worry about file sy

原创 AWS認證解決方案架構助理 - AWS Cognito筆記

Decentralized Managed Authentication. Sign-up, sign-in integration for your apps. Social identity provider. eg. Fac

原创 AWS認證解決方案架構助理 - AWS IAM筆記

Identity Access Management Manages access of AWS users and resources. Core Components IAM allows management of acce

原创 深入理解SparkEnv

文章目錄SparkEnv.scala註釋官方註釋創建DriverEnv和ExecutorEnv統一調用的create方法create函數頭create函數體rpc加密過程的加密序列化器設置廣播變量管理器初始化map輸出結果追蹤設置

原创 《Docker開發指南》勘誤(停更:第9章)

閱讀《Docker開發指南》的過程中,發現了一些些錯誤,有可能是代碼格式引起,有可能是翻譯過程中引起,都會對閱讀和試驗產生一定的影響,在這裏做一個記錄和總結。 勘誤1 大約在P63,“說聲Hello World”一節中。 FRO

原创 AWS Certified Solutions Architect Associate - Snowball Notes

Snowball - Large Scale Transport (physical data transport service) Low Cost It cost thousands of dollars to trans

原创 aws certified Solutions Architect Associate筆記

S3 (Simple Storage Service) object-based storage service serverless storage in the cloud Don’t worry about file sy

原创 Spark SQL關於minus的問題記錄

今天寫了一個曲折的SQL,大概是這樣 -- 有可能是我給人家寫複雜了 with org_year_view as( select distinct org, year from A ) select * from A mi

原创 Spark的HashShuffleManager與SortShuffleManager原理

調優概述 大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提醒大家的是,

原创 tail -f與tail -F的區別

tail -f 等同於–follow=descriptor,根據文件描述符進行追蹤,當文件改名或被刪除,追蹤停止 測試如下 # 創建新文件 touch test.log # 使用tail -f tail -f test.log

原创 深入理解SparkSession(未完成)

文章目錄版本變化spark1.xspark2.x與SparkContext的區別和聯繫區別聯繫SparkSession的作用功能簡述成員屬性簡述 版本變化 spark1.x 在Spark1.6中使用的爲Hive on spark,

原创 Kafka的exactly-once精準一次語義

文章目錄精確一次確實很難實現(Exactly-once is a really hard problem)消息系統語義概述(Overview of messaging system semantics)至少一次語義(At leas

原创 Kafka高吞吐(一),Broker內部讀寫優化

不同於Redis和MemcacheQ等內存消息隊列,Kafka的設計是把所有的Message都要寫入速度低容量大的硬盤,以此來換取更強的存儲能力。實際上,Kafka使用硬盤並沒有帶來過多的性能損失,“規規矩矩”的抄了一條“近道”。