原创 【shell】如何使用shell從HDFS上下載文件傳入並調用Python腳本

        之前小白已經對shell調用Python腳本有過一些介紹(https://blog.csdn.net/Jarry_cm/article/details/95074336),可參考該博文。本篇主要介紹shell腳本如何從HD

原创 【Pyspark】DataFrame存爲hive表及hive表的查詢方式

        使用Pyspark訓練模型後,經常要將模型的訓練結果輸出爲hive表,這篇博文就介紹如何將dataframe數據存爲hive表。         想把DataFrame數據存爲hive數據,就需要用到HiveContext

原创 【Pyspark】list轉爲dataframe報錯:TypeError:not supported type: class numpy.float64

        在PySpark中經常會使用到dataframe數據形式,本篇博文主要介紹,將list轉爲dataframe時,遇到的數據類型問題。 有如下一個list: [(22.31670676205784, 15.00427254

原创 【Python】PySpark安裝

        小白試了很多方法,直接pip install pyspark失敗了,應該是安裝包太大了,在anaconda主頁上,點擊下載安裝,界面沒有反應,因此就使用了離線下載的方式。 首先pip install時,你可以記錄下自己需要

原创 【Python】DataFrame系列2之常用方法和函數

        本篇是DataFrame系列博文的,常用的基礎方法。 目錄 1.查看有哪些列 2.查看索引 3.查看每列的數據類型 4.查看各列數據的數據類型 5.查看行列的大小 6.查看總計有多少個單元格 7.查看行數 8.返回前幾行

原创 【數據庫】Hive SQL 正則表達式進階二(regexp_extract函數進階使用)

       在之前文章中(文章如下),小白有講過正則的三個函數,替換、截取等操作。在工作中,又遇到了其他的問題,這裏做一個進階的講解文章,歡迎遇到類似問題的小夥伴一起學習交流。 初級用法參照下面的文章 Hive SQL 正則表達式進階一

原创 【PySpark】Spark 2.0系列SparkSession與Spark 2.0之前版本中的SQLContext和HiveContext的聯繫與區別

目錄 1.Spark在2.0版本和之前版本的入口 2.SQLContext的使用 3.HiveContext 的使用 4.SparkSession的三種創建方式 4.1SparkSession直接builder方式 4.2SparkCon

原创 【ClickHouse】創建MergeTree的分區和非分區表

        大多數用MergeTree的場景都建立分區表,不過MergeTree也可以創建非分區表的,下面就舉例說明如何創建分區表和非分區表: 創建非分區表: CREATE TABLE tabel( orderid Int64

原创 【ClickHouse】表引擎詳解

目錄 1.日誌引擎系列--Log系列 1.1TinyLog 1.2Log 1.3StripeLog 2.Special系列 2.1Memory 2.2Merge 2.3Distributed 3.MergeTree系列--合併樹引擎系列

原创 【ClickHouse】查看數據庫容量和表大小的方法(system.parts各種操作方法)

        clickhouse有system.parts系統表記錄表相關元數據,可以通過該表對clickhouse上所有表進行查詢表大小、行數等操作。 1.查看數據庫容量 select sum(rows) as row,-

原创 【ClickHouse】三種排序函數(arrayEnumerate、arrayEnumerateDense、arrayEnumerateUniq)

        衆所周知,ClickHouse中的很多SQL語法和hive、傳統數據庫不同,本篇博文,是總結一下ClickHouse常用的排序函數和簡單用法。 1)arrayEnumerate 等同於 ROW_NUMBER 2)array

原创 【PySpark】啓動SparkContext報錯--Cannot run multiple SparkContexts at once; existing SparkContext(...)

        在學習和使用PySpark之初,可能都會遇到這個報錯: 看下場景: 場景一: 創建SparkContext的最基本方法,只需要傳遞兩個參數: (1)集羣URL:告訴Spark如何連接到集羣上,使用local可以讓spar

原创 【ClickHouse】row_number() over (partition by)的幾種實現方法

        hive中有row_number() over (partition by)函數,可以一句SQL實現想要的排序,在ClickHouse中有很多種實現方式,本篇就介紹一下幾種方法。 目錄 1.row_number排序 2.r

原创 【PySpark】將本地CSV文件讀爲DataFrame

        本篇主要介紹兩種將本地文件讀爲DataFrame的方法。 方法一: 其中,format的第一個參數是固定的,代表讀取csv文件,load後面寫入自己存儲的路徑即可 from pyspark import SparkCon

原创 Anaconda中配置Pyspark的Spark開發環境--詳解!

        這篇文章,真的經歷了很長時間,本身對java和電腦的環境變量不熟悉,走了很多彎路,以此記錄下安裝的新路歷程,分享給大家。 目錄 1.在控制檯中測試ipython是否啓動正常 2.安裝JDK 2.1JAVA_HOME 2.2