原创 Flume案例:實時採集python爬取的豆瓣最新電影

首先,讓我們看一下本案例的背景:通過python爬蟲抓取豆瓣最新上映的電影信息,抓取的信息通過flume傳輸到HDFS中。python的版本是3.6,flume的版本是1.8。 Python 爬蟲程序講解 (1)編寫網頁爬蟲程序,首先

原创 數據質量保障原則

評估數據質量的好壞,業界標準並不統一。阿里巴巴對數據倉庫主要從四個方面進行評估,即完整性、準確性、一致性和及時性。 完整性 完整性是指數據的記錄和信息是否完整,是否存在缺失的情況。數據的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失

原创 flume實時採集python爬取的豆瓣最新電影

本案例通過python爬蟲抓取豆瓣最新上映的電影信息,抓取的信息通過flume傳輸到HDFS中。 python的版本是3.6,flume的版本是1.8。 編寫網頁爬蟲程序: 編寫網頁爬蟲程序,首先要對網頁進行訪問,python中使用的

原创 數據傾斜解決方案

數據傾斜定義 簡單的講,數據傾斜就是我們在數據計算的時候,由於數據的分散度不夠,導致大量的數據集中到了一臺或者幾臺機器上計算,這些機器的計算速度遠遠低於整個集羣的平均計算速度,導致整個計算過程十分緩慢。 常見數據傾斜現象 數據傾斜往往會發

原创 linux下安裝並使用Gnuplot

     Gnuplot是一個命令行的交互式繪圖工具(command-driven interactive function plotting program)。用戶通過輸入命令,可以逐步設置或修改繪圖環境,並以圖形描述數據或函數,使我們

原创 淺談數據倉庫的核心概念

1、數據倉庫定義 數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。 爲需要業務智能的企業,提供指導業

原创 mysql備份策略(全量備份+增量備份)

最近項目需要對數據庫數據進行備份,通過查閱各種資料,設計了一套數據庫備份策略,通過調試運行一週後,目前已經處於平穩運行狀態。現在將思路分享出來,同時感謝gredn大佬。 設計場景 1)增量備份在週一到週六凌晨3點,複製mysql-bin.

原创 ant的安裝與使用

    Apache Ant是一個Java庫和命令行工具,其任務是將構建文件中描述的進程作爲相互依賴的目標和擴展點。Ant的主要用途是構建Java應用程序。Ant提供了許多允許編譯,組裝,測試和運行Java應用程序的內置任務。Ant還可以

原创 Hive自定義函數實現通過日期計算星座

    雖然Hive已經提供了很多內置的函數,比如count()、sum(),但是還是不能滿足用戶的需求,因此提供了自定義函數供用戶自己開發函數來滿足自己的需求。一、自定義函數分類    UDF(User-Defined-Function

原创 Hive調用python腳本實現數據清洗、統計過程

Hive的 TRANSFORM 關鍵字提供了在SQL中調用自寫腳本的功能,本實例通過python腳本對電影數據進行清洗,幫助讀者瞭解hive調用python腳本的整個流程。 操作步驟: 1、創建基表 CREATE TABLE u_data