原创 [大數據基礎]Flume學習

Flume定義 Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構,靈活簡單。 Flume框架 批處理 下面我們來詳細介紹一下Flume架構中的組件。

原创 flume啓動報錯 java.lang.NoClassDefFoundError: org/htrace/Trace

我在啓動Flume對hdfs寫入時報如下錯誤: ERROR [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEvent

原创 flume啓動報錯

01 八月 2019 16:05:28,201 WARN [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEvent

原创 [大數據基礎]zookeeper學習

概述 Zookeeper是一個開源的分佈式的,爲分佈式應用提供協調服務的Apache項目。 提供的服務包括:統一命名服務、統一配置管理、統一集羣管理、服務器節點動態上下線、軟負載均衡等。 安裝 下載地址:http://archiv

原创 Python Scrapy爬蟲簡單教程

目標確定 本人在做一個前端頁面的項目,用到一些電影數據 , 就打算在網上爬取一些數據,之前使用自寫的爬蟲demo,但效果不太好,而且費時間.所以打算用框架解決. 框架選擇Scrapy. 爬取網頁:https://www.ygdy8

原创 pandas簡單教程

import pandas as pd import numpy as np import matplotlib.pyplot as plt 對象創建 通過傳入一些值的列表來創建一個Series, Pandas會自動創建一個默認

原创 Apache kylin 入門學習(3) build cube

導入hive表 登錄Kylin的Web界面,創建新的或選擇一個已有的項目之後,需要 做的就是將Hive表的定義導入到Kylin中。 單擊Web界面的Model→Data source下的“Load Hive Table”圖標,然

原创 BP算法

Back propagation(反向傳播) Backpropagation algorithms are a family of methods used to efficiently train artificial neu

原创 根據類名找jar包

ctrl+shift+t可以在eclipse中查找,但這僅限於本地jar包,對於未知jar包我們沒有辦法. 這個網址可以根據類名查找jar包 https://www.findjar.com/index.x 但比較雞肋,因爲常用的在

原创 HIVE JDBC方法連接

輸入 hiveserver2 打開hive server2 在之前的學習和實踐Hive中,使用的都是CLI或者hive –e的方式,該方式僅允許使用HiveQL執行查詢、更新等操作,並且該方式比較笨拙單一。幸好Hive提供了

原创 決策樹

熵 瞭解決策樹前一定要先了解熵,熵在信息論中表示隨機變量不確定性的度量,用於描述隨機變量的混亂度,熵的值越大表示該隨機變量很混亂,熵值低表示該隨機變量不混亂,可以很清晰的對其進行區分。所以我們在劃分決策樹的時候,就是盡力去找到能使

原创 spark報錯: requirement failed: No output operations registered, so nothing to execute

requirement failed: No output operations registered, so nothing to execute :tranformation最後一步產生的那個RDD必須有相應Action操作,

原创 eclipse 編寫 scala 報錯

在eclipse中編寫scala代碼,在輸入 . 或者alt+l是報如下錯誤 An internal error occurred during: "Computing additional info" 具體內容 An int

原创 執行mr或hive聚集查詢卡死

在CDH上安裝了hive進行一般查詢沒有問題,聚合查詢就卡死,如圖 查看日誌沒有報錯. 查看mr狀態發現一直在ACCEPTED狀態. 說明mr有問題,執行mr job ,果然卡死 查詢得知是因爲yarn的物理內存過少,建議配置爲

原创 kylin build cube 報錯:kylin : killed by admin

如題 在 Sandbox VM 中,YARN 不能給 MR job 分配請求的內存資源,因爲 “inmem” cubing 算法需要更多的內存。您可以通過請求更少的內存來繞過這一步: 編輯 修改Kylin的配置文件conf/kyl