台部落J小白Y

之前小白已經對shell調用Python腳本有過一些介紹(https://blog.csdn.net/Jarry_cm/article/details/95074336),可參考該博文。本篇主要介紹shell腳本如何從HD

2020-06-17 11:51:32

使用Pyspark訓練模型後，經常要將模型的訓練結果輸出爲hive表，這篇博文就介紹如何將dataframe數據存爲hive表。想把DataFrame數據存爲hive數據，就需要用到HiveContext

2020-06-17 11:51:32

在PySpark中經常會使用到dataframe數據形式，本篇博文主要介紹，將list轉爲dataframe時，遇到的數據類型問題。有如下一個list： [(22.31670676205784, 15.00427254

2020-06-17 11:51:32

小白試了很多方法，直接pip install pyspark失敗了，應該是安裝包太大了，在anaconda主頁上，點擊下載安裝，界面沒有反應，因此就使用了離線下載的方式。首先pip install時，你可以記錄下自己需要

2020-06-17 11:51:32

本篇是DataFrame系列博文的，常用的基礎方法。目錄 1.查看有哪些列 2.查看索引 3.查看每列的數據類型 4.查看各列數據的數據類型 5.查看行列的大小 6.查看總計有多少個單元格 7.查看行數 8.返回前幾行

2020-06-17 11:51:32

在之前文章中（文章如下），小白有講過正則的三個函數，替換、截取等操作。在工作中，又遇到了其他的問題，這裏做一個進階的講解文章，歡迎遇到類似問題的小夥伴一起學習交流。初級用法參照下面的文章 Hive SQL 正則表達式進階一

2020-06-17 11:51:32

目錄 1.Spark在2.0版本和之前版本的入口 2.SQLContext的使用 3.HiveContext 的使用 4.SparkSession的三種創建方式 4.1SparkSession直接builder方式 4.2SparkCon

2020-06-02 16:46:02

大多數用MergeTree的場景都建立分區表，不過MergeTree也可以創建非分區表的，下面就舉例說明如何創建分區表和非分區表：創建非分區表： CREATE TABLE tabel( orderid Int64

2020-05-20 18:38:38

目錄 1.日誌引擎系列--Log系列 1.1TinyLog 1.2Log 1.3StripeLog 2.Special系列 2.1Memory 2.2Merge 2.3Distributed 3.MergeTree系列--合併樹引擎系列

2020-05-20 18:38:38

clickhouse有system.parts系統表記錄表相關元數據，可以通過該表對clickhouse上所有表進行查詢表大小、行數等操作。 1.查看數據庫容量 select sum(rows) as row,-

2020-05-17 19:24:06

衆所周知，ClickHouse中的很多SQL語法和hive、傳統數據庫不同，本篇博文，是總結一下ClickHouse常用的排序函數和簡單用法。 1）arrayEnumerate 等同於 ROW_NUMBER 2）array

2020-05-14 11:48:31

在學習和使用PySpark之初，可能都會遇到這個報錯：看下場景：場景一：創建SparkContext的最基本方法，只需要傳遞兩個參數：（1）集羣URL：告訴Spark如何連接到集羣上，使用local可以讓spar

2020-05-14 11:48:31

hive中有row_number() over (partition by)函數，可以一句SQL實現想要的排序，在ClickHouse中有很多種實現方式，本篇就介紹一下幾種方法。目錄 1.row_number排序 2.r

2020-05-14 11:48:31

本篇主要介紹兩種將本地文件讀爲DataFrame的方法。方法一：其中，format的第一個參數是固定的，代表讀取csv文件，load後面寫入自己存儲的路徑即可 from pyspark import SparkCon

2020-05-09 13:27:15

這篇文章，真的經歷了很長時間，本身對java和電腦的環境變量不熟悉，走了很多彎路，以此記錄下安裝的新路歷程，分享給大家。目錄 1.在控制檯中測試ipython是否啓動正常 2.安裝JDK 2.1JAVA_HOME 2.2

2020-05-09 13:27:15