原创 Hadoop第七講(1)

HBase的安裝:單機模式 下載安裝包,修改conf/hbase.env.sh,設置環境變量。注意hbase需要和hadoop的版本兼容,一般根據hadoop的版本號,然後用baidu、google搜索一下兼容的版本,最後再去下載相應的

原创 Hadoop第七講(2)

什麼情況下使用hbase? 成熟的數據分析主題,查詢模式(查詢語句固定)已經確立並且不輕易改變;傳統關係數據庫已經無法承受的負荷,高速插入,大量讀取;適合海量,但同時也是簡單的 操作(例如key-value)場景1:瀏覽歷史(列出前5個

原创 hadoop第九講

Hadoop流:最簡單的M-R 具體可以參見Hadoop權威指南的第二章,主要是爲了非java程序員方便使用。下面使用的是ruby腳本 Hive 數據倉庫工具,可以把Hadoop的原始結構化數據變成Hive中的表。支持一種與SQL幾乎完

原创 Hadoop第三講

集羣測試 1. 進行簡單的測試 dfs表示是對分佈式文件系統進行操作;-put是將當前系統的目錄放到Hadoop系統的文件系統的相應目錄中。第二條命令中的字符”\”是多餘的 2. 運行wordcount程序,測試上面放進

原创 正則表達式常見例題

常見例題 例1:北美地區的電話號     編碼方案:電話號碼有一個3位數的區號和一位7位數的號碼組成(這個7位數有分成  一個3位的局號和一個4位的路號,局號和路號之間使用連字符分隔) 每位電話號碼可以是任意數字,但是區號和局號的第一位數

原创 Hadoop第二講

參考資料:Hadoop實戰等 三種運行模式: 1.單機模式:安裝簡單,僅僅用於調試 2.僞分佈式模式:在單個節點上同時啓動namenode,datanode、jobtracker、tasktracker、secondary namen

原创 Hadoop第十講

Hadoop與關係數據庫交換數據 文本轉換方案(轉換爲CSV,文本等文件)自寫Java程序(用JDBC讀關係數據庫中的數據用Hadoop的API寫入)Sqoop(SQL-to-HDFS工具)廠商提供的解決方案Hadoop-0.20.2下

原创 Hadoop第十一講-搜索推薦

案例1:(Search Suggestion)在搜索引擎中打入字的時候會提示常用的搜索,並且顯示最常搜索的幾個推薦給用戶。 採用virtual box模擬Linux集羣,要是有任務時就在虛擬機中運行這些任務。使用eclipse進行Hado

原创 Merkle Tree(HashTree)

    Merkle Tree是基於數據HASH構建的一個樹,Merkle Tree的葉子節點的value是數據集合的單元數據或者單元數據hash,Merke Tree非葉子節點value是其所有子節點value的HASH值。 Merk

原创 Hadoop第八講

Pig Latin 子項目致力於降低hadoop的複雜性。Pig可以看做是hadoop的客戶端軟件,可以連接到hadoop集羣進行數據分析工作。Pig方便不熟悉Java的用戶,使用一種較爲簡便的類似SQL的面向數據流的語言pig lati

原创 前Facebook員工揭祕硅谷公司招人“潛規則”

有好多朋友問硅谷公司招工程師的基本流程. 作爲應聘者, 我試過Facebook, Google, Yahoo, Oracle, 均拿過offer; 作爲面試人員, 面試過不下於300餘人, 清楚大概流程, 做此短文, 希望對於希望去硅谷工

原创 程序員的10大成功面試技巧

我遍覽羣書,發現關於程序員的面試技巧,好的建議其實並不多。 我們也發現,很多很有才華的程序員在面試的時候總是掉鏈子,這大概是因爲他們把大多數時間都用來搞技術開發,而忽略了學習面試技巧的重要性。 這何嘗不是一種悲劇。有效的面試技巧能讓你成功

原创 Trie Tree(Prefix Tree)

Trie,又稱單詞查找樹或鍵樹,是一種樹形結構,是一種哈希樹的變種。典型應用是用於統計和排序大量的字符串(但不僅限於字符串),所以經常被搜索引擎系統用於文本詞頻統計。它的優點是:最大限度地減少無謂的字符串比較,查詢效率比哈希表高。 3個基

原创 Hadoop第一講

haoop思想之源:Google google搜索引擎、Gmail,安卓,App spot,GoogleMaps,GoogleEarth, Google學術,Google翻譯,Google+, 下一步:Google What!! Goo

原创 Hadoop第六講

Hadoop家族           1. Pig      對於非java程序人員,是看不懂java語句的 ,如何讓DBA能夠使用類似SQL的語句就能夠對Hadoop進行數據分析等操作。           2. HBase 該思想下