原创 MapReduce的原理及執行過程

MapReduce簡介MapReduce是一種分佈式計算模型,是Google提出的,主要用於搜索領域,解決海量數據的計算問題。MR有兩個階段組成:Map和Reduce,用戶只需實現map()和reduce()兩個函數,即可實現分佈式計算。M

原创 hadoop的mapReduce和Spark的shuffle過程的詳解與對比及優化

大數據的分佈式計算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之間的最大區別是前者較偏向於離線處理,而後者重視實現性,下面主要介紹mapReducehe和Spark兩者的shuff

原创 【搜索引擎基礎知識2】網絡爬蟲

版權聲明:本文爲博主原創文章,轉載請註明來自http://blog.csdn.net/jediael_lu/部分內容參考《這就是搜索引擎》通用搜索引擎的處理對象是互聯網網頁,目前網頁數量以百億計,搜索引擎的網絡爬蟲能夠高效地將海量的網頁數據

原创 IK的整個分詞處理過程

首先,介紹一下IK的整個分詞處理過程:1. Lucene的分詞基類是Analyzer,所以IK提供了Analyzer的一個實現類IKAnalyzer。首先,我們要實例化一個IKAnalyzer,它有一個構造方法接收一個參數isMaxWord

原创 mysql索引總結----mysql 索引類型以及創建

文章歸屬:http://feiyan.info/16.html,我想自己去寫了,但是發現此君總結的非常詳細。直接搬過來了關於MySQL索引的好處,如果正確合理設計並且使用索引的MySQL是一輛蘭博基尼的話,那麼沒有設計和使用索引的MySQL

原创 MapReduce核心map reduce shuffle (spill sort partition merge)詳解

http://tianxingzhe.blog.51cto.com/3390077/1697259Shuffle過程是MapReduce的核心,也被稱爲奇蹟發生的地方。要想理解MapReduce, Shuffle是必須要了解的。Shuffl

原创 Hadoop分佈式集羣搭建

Linux安裝,環境搭建:1.安裝VM2.安裝CentOS_6.5虛擬機,硬盤空間設置爲10G3.設置網絡連接:選擇VM-編輯-虛擬網絡編輯器-更改設置,選擇名稱VMnet8移除網絡,再添加VMnet8網絡,選擇NAT模式,點擊應用4.設置

原创 Nutch1.8+Hadoop1.2+Solr4.3分佈式集羣配置

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。當然在百度百科上這種方法在Nutch1.2之後,已經不再適合這樣描述Nutch了,因爲在1.2版本之後,Nutch專注的

原创 Partitioner

爲什麼要使用分區?  1.根據業務需要,產生多個輸出文件  2.多個reduce任務在運行,提高整體job的運行效率

原创 shuffle的過程分析

多個map任務的輸出,按照不同的分區,通過網絡copy到不同的reduce節點上。   Map端:  1、在map端首先接觸的是InputSplit,在InputSplit中含有DataNode中的數據,每一個InputSplit都會分配一

原创 Flume+Kafka整合

腳本生產數據---->flume採集數據----->kafka消費數據------->storm集羣處理數據 日誌文件使用log4j生成,滾動生成! 當前正在寫入的文件在滿足一定的數量閾值之後,需要重命名!!!  flume+Kafka整合

原创 hadoop的mapReduce和Spark的shuffle過程的詳解與對比及優化

大數據的分佈式計算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之間的最大區別是前者較偏向於離線處理,而後者重視實現性,下面主要介紹mapReducehe和Spark兩者的shuff

原创 Hadoop分佈式集羣搭建

Linux安裝,環境搭建:1.安裝VM2.安裝CentOS_6.5虛擬機,硬盤空間設置爲10G3.設置網絡連接:選擇VM-編輯-虛擬網絡編輯器-更改設置,選擇名稱VMnet8移除網絡,再添加VMnet8網絡,選擇NAT模式,點擊應用4.設置

原创 【搜索引擎基礎知識1】搜索引擎基本架構

版權聲明:本文爲博主原創文章,轉載請註明來自http://blog.csdn.net/jediael_lu/(一)搜索引擎的開發一般可分爲以下三大部分1、數據採集層:一般使用爬蟲獲取互聯網的數據,重要的開源項目有Heritrxi2、數據分析

原创 IK的整個分詞處理過程

首先,介紹一下IK的整個分詞處理過程:1. Lucene的分詞基類是Analyzer,所以IK提供了Analyzer的一個實現類IKAnalyzer。首先,我們要實例化一個IKAnalyzer,它有一個構造方法接收一個參數isMaxWord