原创 【SparkStreaming】java.lang.NoClassDefFoundError: org/apache/spark/streaming/StreamingContext

【問題描述】        說一件很神奇的事情,今天在使用SparkStreaming進行Scala編程的時候,發生瞭如下問題: Exception in thread "main" java.lang.NoClassDefFoundE

原创 SparkStreaming讀取Kafka對接Flume抽取到的數據庫數據並保存到HBase中,Hive映射HBase進行查詢

       最近公司在做實時流處理方面的工作,具體需求是:將關係型數據庫(MySQL、Oracle)中的相關數據表實時的導入到HBase中,並使用Hive映射HBase進行數據查詢。公司使用的是CDH6.3.1搭建的大數據集羣~ 目錄

原创 CDH6.3.1中安裝StreamSets3.16.0

       StreamSets(StreamSets Data Collector)是一款開源的強大的實時數據採集和ETL工具,數據源支持包括結構化和半/非結構化,目標源支持HDFS,HBase,Hive,Kudu,Cloudera

原创 使用Linux命令分析Nginx日誌中的PVUV

       近期,公司有統計網站PVUV的想法,巧合的是,公司網站上已經安裝了Nginx,分析Nginx的日誌來統計PVUV簡直是再簡單不過了。所謂PV(訪問量),即Page View,它是頁面瀏覽量或點擊量,用戶每次刷新即被計算一次。

原创 Python切分圖片,組成動圖

       經過520、521的洗禮,我想我必須爲522做點什麼了,畢竟522也是傳說中的黑客情人節嘛。這裏想到了之前的一個段子,我再次從網上將原圖扒拉了出來。在這個傳說中的節日裏,能不能搞點事情?這麼長的圖看起來着實費力,能不能通過一

原创 【Python】UserWarning: image file could not be identified because WEBP support not installed

       最近在研究使用Python進行圖片裁剪的功能,發現Python的PIL模塊在處理圖片上有不可替代的優勢,但是在使用open()方法加載圖片時卻報瞭如下的錯誤: D:\anaconda\lib\site-packages\P

原创 使用PyCharm創建Django項目

1、點擊創建一個新的項目。 2、選擇Django,設置項目名稱。 如果本地沒有安裝與Python對應版本的Django,PyCharm會自動安裝。 3、運行剛剛創建的項目,訪問默認頁面。 出現以上內容,說明創建成功。其目錄結構介紹如

原创 如何在Hive、MySQL、Oracle中分別添加自增序號

       最近公司業務涉及到了在相應庫中添加自增序號這種操作,閒暇之餘,整理如下,僅供參考~ 一、Hive        1、首先在Hive中建立一個測試表 create table xzw(id int, name string)

原创 【Linux】rsync error: remote command not found (code 127) at io.c(226) [sender=3.1.2]

【問題描述】        今天在使用rsync同步數據的時候,出現瞭如下錯誤: bash: rsync: command not found rsync: connection unexpectedly closed (0 bytes

原创 CDH6.3.1中Hive開啓事務機制

       今天在工作中需要在Hive中建立事務表以支持update和delete等操作,這就需要開啓Hive的事務機制。在CDH的監控界面,找到Hive的配置,具體操作,請戳這裏~。在相關欄目下進行如下設置: 服務端: hive-s

原创 CDH6.3.1監控界面Hive修改參數

       在CDH集羣中有時需要修改Hive中的一些參數來達到某些目的,例如在Hive中查詢某些表需要展示相關的表字段和數據庫名稱,可以使用如下方式在Hive命令行直接進行設置: set hive.cli.print.header=

原创 設置PyCharm運行程序時在Run窗口運行,不在Python Console窗口中運行

       最近,在PyCharm中運行項目的時候發現不是在Run窗口運行了,而是在Python Console中運行,對於已經習慣了再Run中看結果的我來說,特別的彆扭。下面,將會介紹如何把Python Console窗口改成Run窗

原创 【Python】AttributeError: 'AutoSchema' object has no attribute 'get_link'

【問題描述】        今天在搭建django-rest-swagger的時候出現瞭如下錯誤: Traceback (most recent call last): File "D:\anaconda\lib\site-pack

原创 django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library.

【問題描述】        今天在構建django-rest-swagger的時候報瞭如下的錯誤: django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not

原创 【Flume】org.apache.flume.Context.getSubProperties(Ljava/lang/String;)

【問題描述】        今天在CDH集羣中使用Flume的時候報瞭如下的錯誤: 2020-04-10 11:02:33,627 (conf-file-poller-0) [ERROR - org.apache.flume.node.