原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用

文章目錄1 Hive2 Beeline3 Spark-SQL4 Spark-Shell 1 Hive [root@hqc-test-hdp1 ~]# su hdfs [hdfs@hqc-test-hdp1 root]$ cd #

原创 Hadoop與MongoDB整合(Hive篇)

1.背景 公司希望使用MongoDB作爲後端業務數據庫,使用Hadoop平臺作爲數據平臺。最開始是先把數據從MongoDB導出來,然後傳到HDFS,然後用Hive/MR處理。我感覺這也太麻煩了,現在不可能沒有人想到這個問題,於是就

原创 使用Flume向HDFS持久化數據(日誌)

1.去官網下載Flume(使用Flume需安裝jdk1.6以上版本) 2.解壓後進入其根目錄新建checkpoint和dataDi目錄 3.進入conf目錄,新建hdfs_sink.conf agent.sources = r

原创 Spark SQL與Hive On MapReduce速度比較

我們都知道Spark比Hadoop的MR計算速度更快。到底快多少呢?我一直比較疑惑,會有官網說的那麼誇張嗎。 今天就拿基於Spark的Spark SQL和基於MR的Hive比較一下,因爲Spark SQL也兼容了HiveQL,我們就可以通

原创 基於HDP使用Flume實時採集MySQL中數據傳到Kafka+HDFS或Hive

環境版本: HDP-2.5.3 注意:HDP中Kafka broker的端口是6667,不是9092 如果只sink到kafka請看這篇:基於HDP使用Flume採集MySQL中數據傳到Kafka 前言 有兩種方式可以將數據通過

原创 使用Sqoop將SQL Server視圖中數據導入Hive

環境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012 文章目錄1.下載sqljdbc4.jar放在$SQOOP_HOME/lib下2.測試SQL Server

原创 搭建CNN識別你的貓貓狗狗

本文爲Udacity優達學城深度學習課程筆記第三篇,使用圖像增強對貓狗圖像進行分類。 課程地址:https://classroom.udacity.com/courses/ud187 最終目的是訓練CNN模型,使其能識別上面的小

原创 基於Spark MLlib和Spark Streaming實現準實時分類

環境版本: ·Spark 2.0 ·Scala 2.11.8   在網上搜索Spark MLlib和Spark Streaming結合的例子幾乎沒有,我很疑惑,難道實現準實時預測有別的更合理的方式?望大佬在評論區指出。本篇博客

原创 HBase 1.1.2 REST API 初體驗

環境版本: ·HDP 2.5.3 ·HBase 1.1.2 HBase提供了REST API,爲開發者增加了更多選擇。我們可以使用HBase REST API對錶進行增刪改查,但本篇博客主要使用查詢功能。 請注意HBase版本

原创 工業大數據介紹

一、工業大數據的定義 工業大數據是指在工業領域,主要通過傳感器等物聯網技術進行數據採集、傳輸得來的數據,由於數據量巨大,傳統的信息技術已無法對相應的數據進行處理、分析、展示,而在傳統工業信息化技術的基礎上借鑑了互聯網大數據的技術,

原创 Spark SQL簡單操作演示(含導出表)

還沒裝spark看這:spark搭建 Spark SQL前身是Shark,由於Shark對於Hive的太多依賴制約了Spark的發展,Spark SQL由此產生。 Spark SQL只要在編譯的時候引入Hive支持,就可以支持Hive表

原创 Spark本地模式與Spark Standalone僞分佈模式

紅字部分來源於:董的博客 目前Apache Spark支持三種分佈式部署方式,分別是standalone、spark on mesos和 spark on YARN,其中,第一種類似於MapReduce 1.0所採用的模式,內部實現了

原创 SparkR初體驗

突然有個想法,R只能處理百萬級別的數據,如果R能運行在spark上多好!搜了下發現13年SparkR這個項目就啓動了,感謝美帝! 1.你肯定得先裝個spark吧。看這:Spark本地模式與Spark Standalone僞分佈模式 2.

原创 Spark Standalone完全分佈模式

紅字部分來源於:董的博客 目前Apache Spark支持三種分佈式部署方式,分別是standalone、spark on mesos和 spark on YARN,其中,第一種類似於MapReduce 1.0所採用的模式,內部實現了

原创 用R進行多元線性迴歸分析建模

概念:多元迴歸分析預測法,是指通過對兩個或兩個以上的自變量與一個因變量的相關分析,建立預測模型進行預測的方法。當自變量與因變量之間存在線性關係時,稱爲多元線性迴歸分析。 下面我就舉幾個例子來說明一下 例一:謀殺率與哪些因素有關 變量選