台部落BestbpF

通過coordinator調度一個wordcount例子，定時開啓運行時間並且設置調度頻率 job.properties nameNode=hdfs://BPF:9000 jobTracker=BPF:8032 queueName=def

2020-02-21 07:50:53

HBase本身提供了很多種數據導入的方式，通常有兩種常用方式： 1、使用HBase提供的TableOutputFormat，原理是通過一個Mapreduce作業將數據導入HBase 2、另一種方式就是使用HBase原生Client

2020-02-21 07:50:53

需求：對nginx服務器下的log文件進行收集到HDFS上，然後通過mapreduce對日誌文件進行分析。我這裏的log文件位於 /var/log/nginx/access.log。通過打開nginx的頁面進行刷新來模擬用戶訪問，會

2020-02-21 07:50:53

背景：在使用mapreduce時，表現出了以下兩點不便性： MapReduce is hard to program 【八股文】格式編程，三大部分No Schema, lack of query lanaguages

2020-02-21 07:50:53

需求：將HDFS中的每行以tab分隔的測試數據，使用importtsv導入到HBase的表中、在HBase中創建一個表： create 'student','info' 準備的數據 1001 zhangsan 35 male beiji

2020-02-21 07:50:53

今天換了個linux系統，把原來的hadoop環境考到了新的系統上。然後在線安裝了個MySQL，再測試hue是否可以使用DB查詢時報錯：libmysqlclient.so.20找不到。在usr下找了半天確認沒有這個東西，通過以下方法解決

2020-02-21 07:50:53

需求：有一個文件保存瞭如下信息： A:B,C,D,F,E,O（代表A的好友有BCDFEO） B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H

2020-02-21 07:50:53

背景： Hadoop2.0之前，在HDFS集羣中NameNode存在單點故障問題，對於只有一個NameNode的集羣，如果NameNode機器出現問題，則整個集羣將無法使用，直到NameNode重新啓動。NameNode主要在以下兩個方

2020-02-21 07:50:52

http://www.cnblogs.com/csyuan/p/6543018.html 1. HBase框架簡單介紹 HBase是一個分佈式的、面向列的開源數據庫，它不同於一般的關係數據庫,是一個適合於非結構化數據存儲的數據庫。另

2020-02-21 07:50:52

本workflow位於oozie目錄下新創建的一個oozie-apps文件夾下的hive-select文件夾中。 hive-select： 1、job.properties 2、lib文件夾（其中包含了一個mysql的驅動包）

2020-02-21 07:50:52

需求： 1)按照第一個字段進行分組 2)對分組中的第二個字段進行排序（降序） 3)獲取每個分組Top Key(比如獲取前三個值) 數據： aa 78 bb 98 aa 80 cc 98 aa 69 cc 87 bb 97 cc 8

2018-09-01 20:12:03

RDD簡介 RDD是spark中的抽象數據結構，任何數據在Spark中都被表示爲RDD。RDD可被看成一個數組，但RDD中的數據是可以分區存儲的，能夠分佈在不同的機器上。 Spark應用程序就是把需要處理的數據轉化爲RDD，然後進行一

2018-09-01 20:12:03

1、創建數據庫 create database test_db comment 'test database'; create database if not exists test_db comment 'test database

2018-09-01 20:12:03

TextFile Hive默認格式，數據不做壓縮，磁盤開銷大，數據解析開銷大。可結合Gzip、Bzip2、Snappy等使用（系統自動檢查，執行查詢時自動解壓），但使用這種方式，hive不會對數據進行切分，從而無法對數據進行並行操作。

2018-09-01 20:12:03

Map的個數在map階段讀取數據前，FileInputFormat會將輸入文件分割成split。split的個數決定了map的個數。影響map個數，即split個數的因素主要有：HDFS塊的大小，即HDFS中dfs.block.size

2018-09-01 20:12:03