原创 Spark Streaming整合Spark SQL操作

Spark Streaming整合Spark SQL操作 代碼如下: from pyspark import SparkContext from pyspark.streaming import StreamingContext

原创 sparkstreaming使用python實現黑名單過濾

sparkstreaming使用python實現黑名單過濾 場景如下:zs(張三),ls(李四)在黑名單中,ww(王五)不在黑名單中。將zs,ls過濾,得出ww不在黑名單,代碼如下: from pyspark import Spa

原创 spark streaming 將數據持久化的數據庫

spark streaming 將數據持久化的數據庫 查看資料與官網,都沒有找到streaming入mysql的python程序,無奈自己寫了一個(寫了半天,才測試成功,真實太菜了),希望能夠幫助到各位。。。 啓動pyspark

原创 kafka單節點多broker部署及使用

kafka單節點多broker部署及使用 參考單節點單broker部署的文章 https://blog.csdn.net/weixin_43451620/article/details/105573713 將配置文件server.

原创 centos7升級Python後yum不能用,誤刪系統自帶Python,怎麼解決?

centos7升級Python後yum不能用,誤刪系統自帶Python,怎麼解決? 客官,別急。。。 首先,完全刪除系統的Python環境 rpm -qa|grep python|xargs rpm -ev --all

原创 kafka單節點單broker的安裝部署及使用

kafka單節點單broker的安裝部署及使用 kafka是Apache的頂級項目,可以在官網 http://kafka.apache.org/downloads 根據自己的scala版本下載自己需要的壓縮包 解壓: [root

原创 zookeeper安裝及下載

zookeeper安裝及下載 根據自己所需的版本,下載zookeeper的壓縮包 [root@hadoop001 downloads]# wget http://archive.cloudera.com/cdh5/cdh/5/zo

原创 使用Python將多個excel的多個sheet頁合併到一個excel

使用Python將多個excel的多個sheet頁合併到一個excel ##讀取Excel文件 import xlrd ##將文本寫入excel文件 import xlsxwriter ##讀取excel文件 def getex

原创 安裝scrapy過程中提示Microsoft Visual C++ 14.0 is required。

#安裝scrapy過程中提示Microsoft Visual C++ 14.0 is required。 安裝VC過程是比較漫長的,所以題主便尋求是否有更簡便的方法去解決該問題。 後來發現安裝twisted相應的包會更便捷: t

原创 Linux 將數據文件的記錄分割符\n替換成\r\n,然後入Oracle

Linux 將數據文件的記錄分割符\n替換成\r\n,然後入Oracle 編寫控制文件ctl,部分內容(截取了部分字段)如下圖: 查看文件編碼爲utf-8,現將文件編碼轉爲gbk,如下圖: 替換文件分隔符,使用以下命令: se

原创 Greenplum字段拼接

GP字段拼接相對於Oracle等數據庫有細微差距。例如: select A || B || C from table; 我們想得到的結果是:ABC。但是在GP數據庫中,假如A、B、C當中任意一個字段爲空,那麼得到的查詢結果ABC也爲空

原创 查看greenplum的表結構

獲取表結構的函數: get_table_structure,使用方法如下: select get_table_structure(‘scheme.tablename’)