原创 hive臨時設置

set mapreduce.job.reduces =3 臨時生效設置reduce數量

原创 運行資源優化配置

一個CPU core同一時間只能執行一個線程。而每個Executor進程上分配到的多個task,都是以每個task一條線程的方式,多線程併發運行的sp

原创 ALS推薦算法在Spark上的優化從50分鐘到3分鐘

從50多分鐘到3分鐘的優化 某推薦系統需要基於Spark用ALS算法對近一天的數據進行實時訓練, 然後進行推薦. 輸入的數據有114G, 但訓練時間加上預測的時間需要50多分鐘, 而業務的要求是在15分鐘左右, 遠遠達不到實時推薦的要

原创 Kafka集羣部署

 Kafka集羣部署 1)解壓安裝包 [atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/ 2)修改解壓後的文件名稱 [atguig

原创 如何殺掉當前正在執行的hadoop任務

列出當前hadoop正在執行的jobs: [[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently running JobId   S

原创 hive表的存儲格式; ORC格式的使用

hive表的源文件存儲格式有幾類: 1、TEXTFILE 默認格式,建表時不指定默認爲這個格式,導入數據時會直接把數據文件拷貝到hdfs上不進行處理。源文件可以直接通過hadoop fs -cat 查看 2、SEQUEN

原创 Linux nc 命令詳解

netcat是網絡工具中的瑞士軍刀,它能通過TCP和UDP在網絡中讀寫數據。通過與其他工具結合和重定向,你可以在腳本中以多種方式使用它。使用netcat命令所能完成的事情令人驚訝。 netcat所做的就是在兩臺電腦之間建立鏈接並

原创 Hive中的分桶

對於每一個表(table)或者分區, Hive可以進一步組織成桶,也就是說桶是更爲細粒度的數據範圍劃分。Hive也是針對某一列進行桶的組織。Hive採用對列值哈希,然後除以桶的個數求餘的方式決定該條記錄存放在哪個桶當中。把表(或者分區)組

原创 Hadoop Hive基礎sql語法

目錄  Hive 是基於Hadoop 構建的一套數據倉庫分析系統,它提供了豐富的SQL查詢方式來分析存儲在Hadoop 分佈式文件系統中的數據,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的SQL查詢功能,可以將SQL語句轉換爲M

原创 mysql join操作

1.Inner joinSelect <select_list> fromtablea ainner join tableb bon a.key=b.key2.left joinSelect <select_list>From table

原创 關於Spark運行流式計算程序中跑一段時間出現GC overhead limit exceeded

最近在升級一個框架的時候,發現某個流式計算程序每隔一定的時間就會出現GC overhead limit exceeded的錯誤問題。 這個問題肯定是內存不夠,但是初始設置的內存是夠的啊,於是進行各種內存優化,如將變量定義在循環體外

原创 Hive的幾種排序

1、order by 全局排序,相當於一個reduce,2、sort by 按每一個reduce內部排序,不是全局排序3、distribute by 類似於MRPartition,進行分區,一般要結合sort by使用4、cluster

原创 spark 筆記stand alone 和yarn-cluster的部分區別

 公司最近的spark集羣由原來的standalone遷移到spark on yarn了,在遷移相關的程序時,發現調整還是有一些的,以下分別是兩個版本提交的部分shell命令,從命令可以看出其區別,這個區別主要是spark on yarn

原创 Hive之Bucket 桶表

Bucket 桶表的基本相關概念對於每一個表(table)或者分區, Hive可以進一步組織成桶,也就是說桶是更爲細粒度的數據範圍劃分。Hive也是針對某一列進行桶的組織。Hive採用對列值哈希,然後除以桶的個數求餘的方式決定該條記錄存放

原创 SQL執行順序

FROM <left_table>>ON <join_condition>><join_type> JOIN <right_table>>WHERE