原创 讀書摘錄——《數學之美》

以下內容摘錄自:《數學之美》—吳軍 第二版 第一版序言 牛頓是偉大的物理學家和數學家,他在《自然哲學的數學原理》中敘述了四條法則。其中有“法則1:除那些真實而已足夠說明其現象者外,不必去尋找自然界事物的其他原因。”這條法則後來

原创 hbase shell 支持歷史命令查看

轉載自:https://www.jianshu.com/p/96fd07ff4eaf vim ~/.irbrc require 'irb/ext/save-history' IRB.conf[:SAVE_HISTORY]

原创 Hive - 分區表的探索

以下內容參考自《Hive編程指南》 1、簡單理解 簡單理解,分區就是不同的目錄結構,表是最外層的目錄,表裏面的分區對應表目錄裏的各個子目錄,例如: ... .../employees/country=CA/state=AB .

原创 Hive 調整 Map 的個數

摘錄自《Hive 性能調優實戰》 在調優時不希望生成太多的 Map,而把計算任務的等待時間都耗費在 Map 的啓動上;或者不希望生成太多的 Map 對某個文件進行操作,以免引起資源的爭用。這時候就需要對 Map 進行控制。在

原创 HBase 優化拆分和合並

摘錄自《HBase 權威指南》 HBase 內置的處理拆分和合並的機制一般是合理的,並且它們按照預期處理任務,但在某些情況下,還是需要按照應用需求對這部分功能進行優化以獲得額外的性能改善。 管理拆分 通常 HBase 是自動處

原创 認識布隆過濾器(Bloom Filter)

摘錄自《程序員代碼面試指南》 如果遇到網頁黑名單系統、垃圾郵件過濾系統、爬蟲的網址判重等題目,又看到系統容忍一定程度的失誤率,但是對空間要求比較嚴格,那麼很有可能是需要關於布隆過濾器的知識。一個布隆過濾器精確地代表一個集合,並

原创 【力扣】5429. 數組中的 k 個最強值

文章目錄求助!!!5429. 數組中的 k 個最強值 題目難度Medium提交記錄 求助!!! 以下是 力扣 第 192 場周賽 第二題的解題,感覺自己思路沒錯,若有不正確的思路請大佬們指出,可以優化的地方請大佬們幫幫忙,謝謝蟹蟹

原创 Spark基本原理(一)

1、Hadoop中的MR與Spark有什麼區別?爲什麼Spark有優勢? MR的大致過程是: Map端從HDFS中讀取到文件,並簡單的進行數據處理,處理後將結果Spill(溢寫)到磁盤;Reduce從磁盤讀取Map產生的結果,進行處理後通

原创 Hive 分區和桶

摘錄自《Hadoop 權威指南》 Hive 把表組織成分區(partition)。這是一個根據分區列(partition column,如日期)的值對錶進行粗略劃分的機制。使用分區可以加快數據分片(slice)的查詢速度。 表

原创 Hive 存儲格式

摘錄自《Hadoop 權威指南》 Hive 從兩個維度對錶的存儲進行管理,分別是行格式(row format)和文件格式(file format)。行格式指行和一行中的字段如何存儲。按照 Hive 的術語,行格式的定義由 Se

原创 Hadoop學習——MapReduce

1、MR執行流程 作業的提交 1)啓動客戶端Client,運行Job; 2)客戶端向資源管理器(ResourceManager)提交任務,請求一個新的ID號; 3)客戶端將Job所需的資源發送給HDFS; 4)客戶端向RM提交作業; 作業

原创 Hadoop學習——YARN

1、Yarn的大致結構 Resource Manager(RM,資源管理器):負責整個系統的資源管理和分配,並且由Scheduler和Application Manager組成; Scheduler(調度器):根據容量、隊列等,將系統中資

原创 Hadoop學習——HDFS

1、SNN(SecondaryNameNode)的數據合併過程 觸發合併:設定時間間隔、設定edits文件大小、Hadoop重啓 合併時,SNN會將NameNode中edits文件和fsimage文件拷貝過來,這時NN生成新的edits文

原创 Spark基本原理(二)

1、關於Spark的調優部分 1)更好的序列化實現:在Spark中,需要序列化的地方包括寫入磁盤、Worker之間傳輸RDD等。默認的Java序列化性能比較低,所以將序列化的方式修改爲kryo; 2)配置多個臨時文件的目錄:在併發性高的情

原创 理解分佈式數據處理的三個級別

分佈式數據處理,就是利用分佈式計算技術對數據進行處理。 分佈式計算是指將一個龐大的計算任務經過服務器的處理劃分爲若干個小任務,然後將這些小任務通過網絡分發到位於同一網絡、不同物理位置的客戶端,通過這種結構計算出各個結果,最後在通過彙總得到