原创 HDFS缺點,短板,不足之處

1.不擅長低延時數據訪問 由於hadoop針對高數據吞吐量做了優化,犧牲了獲取數據的延遲,所以對於低延遲訪問數據的業務需求不適合HDFS。   2.不擅長大量小文件存儲 存儲大量小文件的話,它會佔用 NameNode大量的內存來存儲文件、

原创 Sqoop 1.4.7 的安裝部署(包含測試)

Sqoop 下載地址(這裏是1.4.7版本,1.4.7目前是最穩定的版本) (Sqoop2 的最新版本是 1.99.7。請注意,1.99.7 與 1.4.7 不兼容, 且沒有特徵不完整) https://mirrors.tuna.

原创 idea內 hdfs API 操作

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.

原创 分佈式系統?女朋友?

  你女朋友是高可用麼?分佈式系統的概念,技術來源於戀愛,又高於戀愛 1.高可用:就算失戀了,可以迅速和另一個女生戀愛,永遠不會是單身狀態 2.註冊中心:你和你女朋友去民政局登記,民政局就是註冊中心,掉線的代價就是離婚 3.負載均衡:你和

原创 集羣擴容需要做哪些準備

1.配置JDK 2.配置SSH免密鑰 3.關閉防火牆 4.關閉selinux 5.修改主機名 6.修改hosts

原创 集羣的namenode故障恢復

      secondaryNamenode對namenode當中的fsimage和edits進行合併時,每次都會先將namenode的fsimage與edits文件拷貝一份過來,所以fsimage與edits文件在secondarNa

原创 集羣擴容的流程

1.  在配置文件目錄添加dfs.hosts白名單文件,文件中加入包括新增節點在內的所有節點 2. 在hdfs.site.xml中配置白名單文件生效    <property>       <name>dfs.hosts</name>

原创 CAP概述

CAP到底是什麼? 在理論計算機科學中,CAP定理(CAP theorem),又被稱作布魯爾定理(Brewer’s theorem),它指出對於一個分佈式計算系統來說,不可能同時滿足以下三點: 一致性(Consistency)

原创 SecondaryNamenode工作的觸發因素有哪些

1.時間維度,默認一小時觸發一次   dfs.namenode.checkpoint.period :3600 2.次數維度,默認100萬次觸發一次 dfs.namenode.checkpoint.txns : 1000000 3、六十秒

原创 java算法經典面試題

字符串匹配問題: 有兩個字符串     str1=""bbc abcdab abcdabcd abde""     str2="abcdabd" 現在要判斷str1是否含有str2,如果存在,就返回第一次出現的位置,如果沒有,則返回-1

原创 集羣優化的核心思路(理論)

           在網絡帶寬、磁盤IO是瓶頸的前提下                  能不使用IO 網絡就不使用,在必須使用的前提下,能少用就少用。             所有的只要能夠減少網絡帶寬的開銷,只要能夠減少磁盤io的使

原创 算法03_隊列

隊列 隊列介紹 隊列是一個有序列表,可以使用數組或者鏈表來實現 遵循先入先出的原則(先存入隊列的數據,要先取出。後存入的要後取出) 樣例圖(使用數組模型示意圖) 隊列本身是有序列表,如上面的圖之中maxSize是該隊列的最大容

原创 算法01-線性結構和非線性結構

數據結構包括:線性結構和非線性結構 線性結構 1.線性結構作爲層、最常用的數據結構,其特點是數據元素之間存在一對一的線性關係 2.線性結構有兩種不同的存儲結構,即順序存儲(數組)結構和鏈式存儲(鏈表)結構。順序存儲的線性表稱爲順序表,順序

原创 數據結構跟算法的關係

數據結構跟算法的關係     數據(data)結構(structure)是一門研究組織數據方式的學科,有了編程語言就有了數據結構,學好數據結構可以編寫出更加漂亮,更加有效率的代碼。     要學習好數據結構就要多多考慮如何將生活中遇到的問

原创 算法02-稀疏sparsearray數組

稀疏數組     當一個數組中大部分元素爲0(null),或者爲同一個值的數組時,可以使用稀疏數組來保存該數組。     稀疏數組的處理方法是:         1.記錄數組一共幾行幾列,有多少個不同的值         2.把具有不同值