原创 Hadoop 2.2.0的新特性

Apache Hadoop-2.2.0與之前的hadoop-1.x相比出現了一些新的特性,具體如下: 一.資源統一管理系統YARN YARN  是”Yet  Another Resource Negotiator”的簡稱。由於MRv1存在

原创 基於hadoop搜索引擎實踐——生成倒排表文件(四)

2.3 建立倒排表文件(下面原理引用劉鵬hadoop實戰)     在分析完分詞,Rank值得計算等問題的解決方案之後,就可以設計相應的MapReduce算法,來建立倒排表,計算,保存Rank和Position等附屬信息。     首先

原创 基於hadoop搜索引擎實踐——生成倒排表文件(三)

1.源文件過濾     在對源文件進行功能性處理之前,有必要對生成的源文件進行一次預分析和過濾。     (1)去重,過濾掉爬取過程中重複的帖子,保持帖子的唯一性。     (2)過濾不符合要求的帖子,比如獲取的信息不能正常轉爲json格

原创 Hadoop,HBase添加和刪除節點

Hadoop添加和刪除節點 一.添加節點 (一)添加節點有兩種方式,一種是靜態添加,關閉hadoop集羣,配置相應配置,重啓集羣(這個就不再重述了) (二)動態添加,在不重啓集羣的情況下添加節點 1.設置新datanode與namenod

原创 基於hadoop搜索引擎實踐——二級索引文件(五)

基於hadoop搜索引擎——二級索引文件     一般生成的倒排表文件會比源文件暫用空間大,主要是倒排表文件所記錄的信息比較詳細。它記錄了所有的索引詞記錄(TERM_RECORD)信息,對於常見的關鍵詞(TERM),其MULTI_INF

原创 Zookeeper 3.4.6在Hadoop 2.2.0的安裝

1.環境配置 本次集羣有三臺節點 Master:hpd1 Slave:hdp2,hdp3 OS:CentOS 6.5 2.下載Zookeeper 3.4.6 Zookeeper 3.4.6下載地址:http://mirrors.cnnic

原创 在64位操作系統中重編譯hadoop 2.2.0

在64位操作系統中重編譯hadoop 2.2.0 最近爲了做一些測試,在CentOS6.5中部署Hadoop 2.2.0。從官方網站下載hadoop-2.2.0.tar.gz的安裝包,部署安裝後發現不能運行提示:  WARNutil.Na

原创 基於hadoop搜索引擎實踐——總體概述(一)

1.系統工作原理     搜索引擎是爲用戶提供信息檢索服務的工具。在整個搜索系統中可以分爲在線處理和離線處理兩部分。搜索引擎的離線處理主要是在接受用戶查詢的請求之前需要處理的一系列工作。主要包括抓取並整理網頁信息,建立倒排索引文件,建立二

原创 Hadoop發行版的比較與選擇

Hadoop的發行版除了社區的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,華爲等都提供了自己的商業版本。商業版主要是提供了專業的技術支持,這對一些大型企業尤其重要。每個發行

原创 win eclipse 執行mapreduce 提示AccessControlException: Permission denied的解決辦法

win eclipse 執行mapreduce,提示如下錯誤: org.apache.hadoop.security.AccessControlException: Permission denied: user=1010, access

原创 hadoop中mapreduce的默認設置

默認設置 job.setInputFormatClass()的默認設置爲TextInputFormat類,該類處理輸入(該類只處理文本文件)。TextInputFormat將文本文件的多行分成splits,並通過LineRecorderR

原创 在集羣中java 通過調用API操作HBase 0.98

在集羣中java通過調用API操作HBase0.98 本文的內容是在集羣中創建java項目調用api來操作hbase,主要涉及對hbase的創建表格,刪除表格,插入數據,刪除數據,查詢一條數據,查詢所有數據等操作。 具體流程如下

原创 HBase 0.98.0安裝

1.環境配置 本次集羣有三臺節點 Master:hpd1 Slave:hdp2,hdp3 OS:CentOS 6.5 Hadoop: 2.2.0 2.下載安裝包 HBase 0.98.0 下載地址:http://mirror.bit.ed

原创 基於hadoop搜索引擎實踐——網頁爬取(二)

基於hadoop搜索引擎——網頁爬取 本系統抓取的是某網站的bbs論壇,具體情況可以根據自己的需求選擇。 1.爬取思路     爬取策略是深度優先爬取。算法思想如下:     從網站主頁開始,執行如下步驟:     (1)選擇一個尚

原创 Hive基本命令(2)

1.創建表:     create table if not exists student(id int,name string); 2.創建表並創建索引字段ds     create table sut