原创 Hadoop與Spark並行度設置問題(mr、spark任務提交參數的設置、spark-submit參數調優)

並行度的影響 合理的並行度,不能太小也不要過大。 並行度較小: 併發度小,執行效率低;(失去分佈式計算的意義) 並行度過大: 資源申請上的劣勢。導致ApplicationMaster在向yarn提交資源申請時不能做到數據本地化(分

原创 通俗易懂的Hive知識分享

hive sql 通過hive cli或者hive server2(實質上是jdbc連接) hive cli: hive -e “your sql” 執行sql並退出 hive -S -e “your sql” 靜默模式,返回結果

原创 Flink大數據計算框架

大數據計算框架——Flink什麼是Flink爲什麼選擇Flink(優點、特性)同時支持高吞吐、低延遲、高性能支持事件時間(Event Time)概念支持有狀態計算支持高度靈活的窗口(windows)操作基於輕量級分佈式快照(Sna

原创 SpringData連接ElasticSearch

https://docs.spring.io/spring-data/elasticsearch/docs/3.1.0.RELEASE/reference/html/#repositories.query-methods.details

原创 操作系統課程設計1 Linux下編譯c++文件

1.使用vim新建編寫c文件:vim test.cpp 2.編譯運行:g++ test.cpp -o test                輸出顯示:./a.out

原创 HDU3397Sequence operation線段樹解法

題:點擊打開鏈接 分析:線段樹區間更新。只不過摻雜了區間和、最大連續區間區間和。對於延遲標記在上一篇博客已經出現過:pojHelp with Intervals線段樹解法 代碼: #include<cstdio> #include<alg

原创 B-number

Description A wqb-number, or B-number for short, is a non-negative integer

原创 poj3252Round Numbers

Description The cows, as you know, have no fingers or thumbs and thus are

原创 HUD1372Knight Moves

題目鏈接:點擊打開鏈接 題意:給出“馬”的初始位置和最終位置,求“馬”行走的最少步數。 分析:典型的BFS #include<iostream> #include<cstdio> #include<cstring> #include<q

原创 英雄聯盟萌萌噠小錘子波比臺詞

“我不是英雄。只是個拿錘子的約德爾人。” 符文之地不乏英勇之人,但很少有人能和波比一樣堅毅。帶着長度兩倍於她身高的錘子,這個決絕的約德爾人已經花費了數不清的歲月來尋找那個“德瑪西亞英雄”。然而,這位據稱是她武器的合法持有人的英雄,只是個虛

原创 操作系統課程設計2 編寫Linux bash腳本

1.使用vim新建一個test.sh文件 編寫腳本文件,保存並退出。 2.設置腳本文件test.sh的權限:chmod +x test.sh 3.運行腳本文件 ./test.sh test.sh示例: #!/bin/bash echo

原创 Flink

什麼是Flink Flink通過實現Google Dataflow流式計算模型實現了高吞吐、低延遲、高性能兼具實時流式計算框架。同時Flink支持高度容錯的狀態管理,防止狀態在計算過程中因爲系統異常而出現丟失,Flink週期性地通

原创 Hadoop數據存儲orc與parquet格式的選擇

對於orc與parquet這兩種列式存儲格式,網上能找到大量的介紹以及對比,此處簡單總結一下: orc VS parquet: orc存儲壓縮率比parquet要高; 一般來說,orc讀取效率比parquet要高; parque

原创 【Spark】重分區

重分區的兩種方式(coalesce與reparation): spark2.10中重分區方法源碼: def repartition(numPartitions: Int)(implicit ord: Ordering[T] = n

原创 Auto email使用文檔

歡迎使用Auto email關於Auto email用戶指南快速開始最簡單的一個郵件郵件正文的渲染郵件附加excel附件最簡單的一個附件樣例excel附件各類配置多sheet表單表單中date_type配置表單中row_title