原创 使用IDEA開發Spark SQL

一、創建DataFrame/DataSet Spark會根據文件信息嘗試着去推斷DataFrame/DataSet的Schema,當然我們也可以手動指定,手動指定的方式有以下幾種: 第1種:指定列名添加Schema 第2種:通過Struc

原创 kafka自定義分區API

         導入pom文件 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->

原创 scala 基本介紹與用法(二)

目錄 十三、數組 定長數組 變長數組 添加/修改/刪除元素 遍歷數組 數組常用算法 十四、元組 定義元組 訪問元組 十五、列表 十六、可變列表 可變列表操作 十七、列表常用操作 1.判斷列表是否爲空 2.拼接兩個列表 3.獲取列表的首個元

原创 kettle使用詳細介紹

目錄   一、Kettle安裝、配置 二、Kettle的使用(輸入輸出組件) 1、Test1 csv-excel 2、Test2 json-excel 輸入 輸出 3、Test3 mysql -excelx 輸入 輸出 4、Test4 

原创 spark常見異常

spark常見錯誤 錯誤一、Error:(31, 126) Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc)

原创 Kylin 大數據OLAP引擎

Kylin的誕生背景 Kylin-中國團隊研發的,是第一個真正由中國人自己主導、從零開始、自主研發、併成爲Apache頂級開源項目 Hive的性能比較慢,支持SQL靈活查詢,特別慢 HBase的性能快,原生不支持SQL - phoenix

原创 scala 基本介紹與用法(四)

目錄   三十二、繼承 定義語法 示例 | 類繼承 示例 | 單例對象繼承 三十三、override和super 三十四、類型判斷 isInstanceOf/asInstanceOf getClass和classOf 三十五、抽象類 抽象

原创 Spark環境搭建(運行模式)

一、local本地模式 解壓重命名 cd /export/servers tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz mv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark

原创 RDD數據源

1、普通文本文件 sc.textFile("./dir/*.txt") 如果傳遞目錄,則將目錄下的所有文件讀取作爲RDD。文件路徑支持通配符。 但是這樣對於大量的小文件讀取效率並不高,應該使用wholeTextFiles def who

原创 Structured Streaming應用

一、Spark Streaming曲折發展史 Spark Streaming針對實時數據流,提供了一套可擴展、高吞吐、可容錯的流式計算模型。Spark Streaming接收實時數據源的數據,切分成很多小的batches,然後被Spar

原创 如果整合Yarn報錯或無法查看log需做如下操作

1.修改hadoop的yarn-site.xml vim /export/servers/hadoop/etc/hadoop/yarn-site.xml         <property>                 <name>

原创 【Hive】一些函數

一、substr函數(截取字符串) 語法:substr(string str,int start,int end) 說明:str指定字符串(字段),start指定截取開始的位置,end指定截取幾個字符 二、split函數(分割字符串)

原创 scala 基本介紹與用法(一)

目錄   一、聲明變量  二、類型推斷定義變量 三、惰性賦值 四、字符串 雙引號 插值表達式 使用三引號  五、數據類型與操作符 數據類型 運算符 scala類型層次結構 六、條件表達式 塊表達式 七、循環 for表達式 while循環

原创 scala 開發環境安裝

Java程序編譯執行流程 Scala程序編譯執行流程 scala程序運行需要依賴於Java類庫,必須要有Java運行環境,scala才能正確執行 要編譯運行scala程序,需要 jdk(jvm) scala編譯器(scala SDK)

原创 sparkSQL應用

一、Spark SQL多數據源交互 Spark SQL可以與多種數據源交互,如普通文本、json、parquet、csv、MySQL等 1.寫入不同數據源 2.讀取不同數據源 寫數據 import java.util.Properti