台部落a280966503

set mapreduce.job.reduces =3 臨時生效設置reduce數量

2020-07-04 22:41:54

一個CPU core同一時間只能執行一個線程。而每個Executor進程上分配到的多個task，都是以每個task一條線程的方式，多線程併發運行的sp

2020-07-04 22:41:44

從50多分鐘到3分鐘的優化某推薦系統需要基於Spark用ALS算法對近一天的數據進行實時訓練, 然後進行推薦. 輸入的數據有114G, 但訓練時間加上預測的時間需要50多分鐘, 而業務的要求是在15分鐘左右, 遠遠達不到實時推薦的要

2020-02-21 00:44:11

Kafka集羣部署 1）解壓安裝包 [atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/ 2）修改解壓後的文件名稱 [atguig

2020-02-21 00:44:00

列出當前hadoop正在執行的jobs: [[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently running JobId S

2020-02-21 00:43:48

hive表的源文件存儲格式有幾類： 1、TEXTFILE 默認格式，建表時不指定默認爲這個格式，導入數據時會直接把數據文件拷貝到hdfs上不進行處理。源文件可以直接通過hadoop fs -cat 查看 2、SEQUEN

2020-02-21 00:43:47

netcat是網絡工具中的瑞士軍刀，它能通過TCP和UDP在網絡中讀寫數據。通過與其他工具結合和重定向，你可以在腳本中以多種方式使用它。使用netcat命令所能完成的事情令人驚訝。 netcat所做的就是在兩臺電腦之間建立鏈接並

2020-02-21 00:43:47

對於每一個表（table）或者分區， Hive可以進一步組織成桶，也就是說桶是更爲細粒度的數據範圍劃分。Hive也是針對某一列進行桶的組織。Hive採用對列值哈希，然後除以桶的個數求餘的方式決定該條記錄存放在哪個桶當中。把表（或者分區）組

2020-02-21 00:43:47

目錄　　Hive 是基於Hadoop 構建的一套數據倉庫分析系統，它提供了豐富的SQL查詢方式來分析存儲在Hadoop 分佈式文件系統中的數據，可以將結構化的數據文件映射爲一張數據庫表，並提供完整的SQL查詢功能，可以將SQL語句轉換爲M

2020-02-21 00:43:47

1.Inner joinSelect <select_list> fromtablea ainner join tableb bon a.key=b.key2.left joinSelect <select_list>From table

2020-02-21 00:43:47

最近在升級一個框架的時候，發現某個流式計算程序每隔一定的時間就會出現GC overhead limit exceeded的錯誤問題。這個問題肯定是內存不夠，但是初始設置的內存是夠的啊，於是進行各種內存優化，如將變量定義在循環體外

2020-02-21 00:43:47

1、order by 全局排序，相當於一個reduce，2、sort by 按每一個reduce內部排序，不是全局排序3、distribute by 類似於MRPartition,進行分區，一般要結合sort by使用4、cluster

2020-02-21 00:43:47

公司最近的spark集羣由原來的standalone遷移到spark on yarn了，在遷移相關的程序時，發現調整還是有一些的，以下分別是兩個版本提交的部分shell命令，從命令可以看出其區別，這個區別主要是spark on yarn

2020-02-21 00:43:47

Bucket 桶表的基本相關概念對於每一個表（table）或者分區， Hive可以進一步組織成桶，也就是說桶是更爲細粒度的數據範圍劃分。Hive也是針對某一列進行桶的組織。Hive採用對列值哈希，然後除以桶的個數求餘的方式決定該條記錄存放

2020-02-21 00:43:47

FROM <left_table>>ON <join_condition>><join_type> JOIN <right_table>>WHERE

2020-02-21 00:43:47