原创 HDFS缺點,短板,不足之處
1.不擅長低延時數據訪問 由於hadoop針對高數據吞吐量做了優化,犧牲了獲取數據的延遲,所以對於低延遲訪問數據的業務需求不適合HDFS。 2.不擅長大量小文件存儲 存儲大量小文件的話,它會佔用 NameNode大量的內存來存儲文件、
原创 Sqoop 1.4.7 的安裝部署(包含測試)
Sqoop 下載地址(這裏是1.4.7版本,1.4.7目前是最穩定的版本) (Sqoop2 的最新版本是 1.99.7。請注意,1.99.7 與 1.4.7 不兼容, 且沒有特徵不完整) https://mirrors.tuna.
原创 idea內 hdfs API 操作
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.
原创 分佈式系統?女朋友?
你女朋友是高可用麼?分佈式系統的概念,技術來源於戀愛,又高於戀愛 1.高可用:就算失戀了,可以迅速和另一個女生戀愛,永遠不會是單身狀態 2.註冊中心:你和你女朋友去民政局登記,民政局就是註冊中心,掉線的代價就是離婚 3.負載均衡:你和
原创 集羣擴容需要做哪些準備
1.配置JDK 2.配置SSH免密鑰 3.關閉防火牆 4.關閉selinux 5.修改主機名 6.修改hosts
原创 集羣的namenode故障恢復
secondaryNamenode對namenode當中的fsimage和edits進行合併時,每次都會先將namenode的fsimage與edits文件拷貝一份過來,所以fsimage與edits文件在secondarNa
原创 集羣擴容的流程
1. 在配置文件目錄添加dfs.hosts白名單文件,文件中加入包括新增節點在內的所有節點 2. 在hdfs.site.xml中配置白名單文件生效 <property> <name>dfs.hosts</name>
原创 CAP概述
CAP到底是什麼? 在理論計算機科學中,CAP定理(CAP theorem),又被稱作布魯爾定理(Brewer’s theorem),它指出對於一個分佈式計算系統來說,不可能同時滿足以下三點: 一致性(Consistency)
原创 SecondaryNamenode工作的觸發因素有哪些
1.時間維度,默認一小時觸發一次 dfs.namenode.checkpoint.period :3600 2.次數維度,默認100萬次觸發一次 dfs.namenode.checkpoint.txns : 1000000 3、六十秒
原创 java算法經典面試題
字符串匹配問題: 有兩個字符串 str1=""bbc abcdab abcdabcd abde"" str2="abcdabd" 現在要判斷str1是否含有str2,如果存在,就返回第一次出現的位置,如果沒有,則返回-1
原创 集羣優化的核心思路(理論)
在網絡帶寬、磁盤IO是瓶頸的前提下 能不使用IO 網絡就不使用,在必須使用的前提下,能少用就少用。 所有的只要能夠減少網絡帶寬的開銷,只要能夠減少磁盤io的使
原创 算法03_隊列
隊列 隊列介紹 隊列是一個有序列表,可以使用數組或者鏈表來實現 遵循先入先出的原則(先存入隊列的數據,要先取出。後存入的要後取出) 樣例圖(使用數組模型示意圖) 隊列本身是有序列表,如上面的圖之中maxSize是該隊列的最大容
原创 算法01-線性結構和非線性結構
數據結構包括:線性結構和非線性結構 線性結構 1.線性結構作爲層、最常用的數據結構,其特點是數據元素之間存在一對一的線性關係 2.線性結構有兩種不同的存儲結構,即順序存儲(數組)結構和鏈式存儲(鏈表)結構。順序存儲的線性表稱爲順序表,順序
原创 數據結構跟算法的關係
數據結構跟算法的關係 數據(data)結構(structure)是一門研究組織數據方式的學科,有了編程語言就有了數據結構,學好數據結構可以編寫出更加漂亮,更加有效率的代碼。 要學習好數據結構就要多多考慮如何將生活中遇到的問
原创 算法02-稀疏sparsearray數組
稀疏數組 當一個數組中大部分元素爲0(null),或者爲同一個值的數組時,可以使用稀疏數組來保存該數組。 稀疏數組的處理方法是: 1.記錄數組一共幾行幾列,有多少個不同的值 2.把具有不同值