台部落光于前裕于后

原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用

文章目錄1 Hive2 Beeline3 Spark-SQL4 Spark-Shell 1 Hive [root@hqc-test-hdp1 ~]# su hdfs [hdfs@hqc-test-hdp1 root]$ cd #

2020-06-25 07:24:52

1

原创 Hadoop與MongoDB整合（Hive篇）

1.背景公司希望使用MongoDB作爲後端業務數據庫，使用Hadoop平臺作爲數據平臺。最開始是先把數據從MongoDB導出來，然後傳到HDFS，然後用Hive/MR處理。我感覺這也太麻煩了，現在不可能沒有人想到這個問題，於是就

2020-06-25 06:24:12

174

原创使用Flume向HDFS持久化數據（日誌）

1.去官網下載Flume（使用Flume需安裝jdk1.6以上版本） 2.解壓後進入其根目錄新建checkpoint和dataDi目錄 3.進入conf目錄，新建hdfs_sink.conf agent.sources = r

2020-06-25 06:24:12

1

原创 Spark SQL與Hive On MapReduce速度比較

我們都知道Spark比Hadoop的MR計算速度更快。到底快多少呢？我一直比較疑惑，會有官網說的那麼誇張嗎。今天就拿基於Spark的Spark SQL和基於MR的Hive比較一下，因爲Spark SQL也兼容了HiveQL，我們就可以通

2020-06-25 06:24:12

17

原创基於HDP使用Flume實時採集MySQL中數據傳到Kafka+HDFS或Hive

環境版本： HDP-2.5.3 注意：HDP中Kafka broker的端口是6667，不是9092 如果只sink到kafka請看這篇：基於HDP使用Flume採集MySQL中數據傳到Kafka 前言有兩種方式可以將數據通過

2020-06-25 06:24:11

2

原创使用Sqoop將SQL Server視圖中數據導入Hive

環境版本： ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012 文章目錄1.下載sqljdbc4.jar放在$SQOOP_HOME/lib下2.測試SQL Server

2020-06-25 06:24:00

2

原创搭建CNN識別你的貓貓狗狗

本文爲Udacity優達學城深度學習課程筆記第三篇，使用圖像增強對貓狗圖像進行分類。課程地址：https://classroom.udacity.com/courses/ud187 最終目的是訓練CNN模型，使其能識別上面的小

2020-06-25 06:24:00

73

原创基於Spark MLlib和Spark Streaming實現準實時分類

環境版本： ·Spark 2.0 ·Scala 2.11.8 在網上搜索Spark MLlib和Spark Streaming結合的例子幾乎沒有，我很疑惑，難道實現準實時預測有別的更合理的方式？望大佬在評論區指出。本篇博客

2020-05-21 13:01:55

原创 HBase 1.1.2 REST API 初體驗

環境版本： ·HDP 2.5.3 ·HBase 1.1.2 HBase提供了REST API，爲開發者增加了更多選擇。我們可以使用HBase REST API對錶進行增刪改查，但本篇博客主要使用查詢功能。請注意HBase版本

2020-05-14 19:03:16

4

原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用

原创 Hadoop與MongoDB整合（Hive篇）

原创使用Flume向HDFS持久化數據（日誌）

原创 Spark SQL與Hive On MapReduce速度比較

原创基於HDP使用Flume實時採集MySQL中數據傳到Kafka+HDFS或Hive

原创使用Sqoop將SQL Server視圖中數據導入Hive

原创搭建CNN識別你的貓貓狗狗

原创基於Spark MLlib和Spark Streaming實現準實時分類

原创 HBase 1.1.2 REST API 初體驗

原创工業大數據介紹

原创 Spark SQL簡單操作演示（含導出表）

原创 Spark本地模式與Spark Standalone僞分佈模式

原创 SparkR初體驗

原创 Spark Standalone完全分佈模式

原创用R進行多元線性迴歸分析建模