原创 【6】DataNode

1.DataNode工作機制 2.數據完整性(瞭解) 思考:如果電腦磁盤裏面存儲的數據是控制高鐵信號燈的紅燈信號(1)和綠燈信號(0),但是存儲該數據的磁盤壞了,一直顯示是綠燈,是否很危險?同理DataNode 節點上的數據損

原创 【4】Hadoop數據壓縮

1. 概述 壓縮概述 壓縮策略和原則 2. MR支持的壓縮編碼 爲了支持多種壓縮/解壓縮算法,Hadoop 引入了編碼/解碼器,如下表 壓縮性能的比較 3.壓縮方式選擇 Gzip壓縮 Bzip2壓縮 Lzo壓縮

原创 【3.3】HDFS客戶端操作之HDFS的I/O流操作

一. HDFS文件上傳 需求:把本地d盤上的lol.txt文件上傳到HDFS根目錄 二. HDFS文件下載 需求:從HDFS上下載banhua.txt文件到本地e盤上 三. 定位文件讀取 需求:分塊讀取HDFS上的大文件,

原创 【3.2】Hadoop運行模式之(僞分佈式運行模式)

一、 啓動HDFS並運行MapReduce程序 配置集羣 (1) 配置:hadoop.env.sh (2)配置 core-site.xml (3)配置 hdfs-site.xml 啓動集羣 (1)格式化 NameNo

原创 【7】HDFS 2.X新特性

1.集羣間數據拷貝 2.小文件存檔 3.回收站 開啓回收站功能,可以將刪除的文件在不超時的情況下,恢復原數據,起到防止誤刪除、 備份等作用。 回收站參數設置及工作機制 啓用回收站 查看回收站 回收站在集羣中的路徑:/u

原创 【3.4】集羣時間同步

配置時間同步具體實操: 1. 時間服務器配置(必須 root用戶) (1)檢查 ntp是否安裝 (2)修改 ntp配置文件 修改內容如下: (3)修改 /etc/sysconfig/ntpd 文件 (4)重新啓動 n

原创 【3.1】HDFS客戶端操作之HDFS客戶端環境準備

(1)根據自己電腦的操作系統拷貝對應的編譯後的 hadoop jar包到非中文路徑( 例如 D:\Develop\hadoop-2.7.2)。 (2)配置 HADOOP_HOME 環境變量 (3)配置 Path環境 變量 (

原创 【3.2】HDFS客戶端操作之HDFS的API操作

一. HDFS文件上傳 編寫源代碼 將hdfs-site.xml拷貝到項目的根目錄下 參數優先級 (1)客戶端代碼中設置的值 >(2)ClassPath下的用戶自定義配置文件 >(3)然後是服務器的默認配置 二. HDFS文件

原创 從本地讀取文本數據中用到的IO流

幾種IO輸入流簡介 FileInputStream :字節輸入流 FileReader :字符輸入流 InputStreamReader :是字節流與字符流之間的橋樑,能將字節流輸出爲字符流,並且能爲字節流指定字符集,可輸出一個

原创 Java 中newInstance()方法和new關鍵字的區別

我們使用關鍵字new創建一個類的對象的時候,這個類可以沒有被加載。但是使用newInstance()方法的時候,就必須保證這個類已經加載並且已經連接了。 降低耦合度: newInstance()實際上是把new這個方式分解爲兩步

原创 生成隨機數中random.nextInt()與Math.random()的區別

random.nextInt()是java.util.Random類中的方法 Math.random()是java.lang.Math類中的靜態方法 Math.random():生成 一個浮點型僞隨機數字,在0(包括0)和1(不包

原创 日期對象與字符串之間的轉換

一. SimpleDateFormate的兩個方法:parse(),format(); parse():將String的對象根據 模板提供的yyyy-mm-dd進行轉化成爲Date類型,如果String的對象不是指定的模板類型的

原创 Java中的Closeable接口

1. 概述 在java.io.包下 InputStream,outputStream, Reader, Writer 等基類都實現了Closeable接口,因爲每次的IO操作結束之後都要去釋放資源。 Closeable 是可以關閉

原创 輸入一個網址並按Enter鍵之後具體發生了什麼?

第一步:查找域名對應的IP地址 主機查找:瀏覽器緩存 => 系統緩存 => 路由器緩存 (遞歸查詢)本地域名服務器以DNS客戶身份查詢 (迭代查詢)依次訪問根域名服務器、頂級域名服務器、域名服務器 第二步:三次握手建立TCP連