原创 如何給Apache Pig自定義UDF函數?

近日由於工作所需,需要使用到Pig來分析線上的搜索日誌數據,散仙本打算使用hive來分析的,但由於種種原因,沒有用成,而Pig(pig0.12-cdh)散仙一直沒有接觸過,所以只能臨陣磨槍了,花了兩天時間,大致看完了pig官網的文檔,在看文

原创 ElasticSearch入門介紹之安裝部署(二)

散仙,在上篇文章對ElasticSearch整體入門作了個介紹,那麼本篇我們來看下,如何安裝,部署es,以及如何安裝es的幾個比較常用的插件. es的安裝和部署,是非常簡單方便的,至少這一點散仙在es和solr之間,能夠很明顯的體現出來,s

原创 Apache Pig的前世今生

最近,散仙用了幾周的Pig來處理分析我們網站搜索的日誌數據,感覺用起來很不錯,今天就寫篇筆記介紹下Pig的由來,除了搞大數據的人,可能很少有人知道Pig是幹啥的,包括一些是搞編程的,但不是搞大數據的,還包括一些既不是搞編程的,也不是搞大數據

原创 SolrCloud6.1.0之SQL查詢測試

 Solr發展飛快,現在最新的版本已經6.1.0了,下面來回顧下Solr6.x之後的一些新的特點: (1)並行SQL特性支持,編譯成Streaming 表達式,可以在solrcloud集羣中,並行執行 (2)SolrCloud的Collec

原创 如何使用Hive集成Solr?

(一)Hive+Solr簡介 Hive作爲Hadoop生態系統裏面離線的數據倉庫,可以非常方便的使用SQL的方式來離線分析海量的歷史數據,並根據分析的結果,來幹一些其他的事情,如報表統計查詢等。 Solr作爲高性能的搜索服務器,能夠提供快速

原创 Neo4j的查詢語法筆記(二)

cypher是neo4j官網提供的聲明式查詢語言,非常強大,用它可以完成任意的圖譜裏面的查詢過濾,我們知識圖譜的一期項目 基本開發完畢,後面會陸續總結學習一下neo4j相關的知識。今天接着上篇文章來看下neo4j的cpyher查詢的一些基本

原创 SolrCloud6.1.0之SQL查詢測試

 Solr發展飛快,現在最新的版本已經6.1.0了,下面來回顧下Solr6.x之後的一些新的特點: (1)並行SQL特性支持,編譯成Streaming 表達式,可以在solrcloud集羣中,並行執行 (2)SolrCloud的Collec

原创 ElasticSearch入門之彼行我釋(四)

散仙在上篇文章中,介紹了關於ElasticSearch基本的增刪改查的基本粒子,本篇呢,我們來學下稍微高級一點的知識: (1)如何在ElasticSearch中批量提交索引 ? (2)如何使用高級查詢(包括,檢索,排序,過濾,分頁) ? (

原创 玩轉大數據系列之Apache Pig如何與Apache Solr集成(二)

散仙,在上篇文章中介紹了,如何使用Apache Pig與Lucene集成,還不知道的道友們,可以先看下上篇,熟悉下具體的流程。 在與Lucene集成過程中,我們發現最終還要把生成的Lucene索引,拷貝至本地磁盤,才能提供檢索服務,這樣以來

原创 Neo4j的查詢語法筆記(二)

cypher是neo4j官網提供的聲明式查詢語言,非常強大,用它可以完成任意的圖譜裏面的查詢過濾,我們知識圖譜的一期項目 基本開發完畢,後面會陸續總結學習一下neo4j相關的知識。今天接着上篇文章來看下neo4j的cpyher查詢的一些基本

原创 Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

關於NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 關於ResourceManager高可靠需要配置的文件有yarn-site.xml 邏輯結構:  NameNode-HA工作原理: 在一個典型

原创 如何使用Hive集成Solr?

(一)Hive+Solr簡介 Hive作爲Hadoop生態系統裏面離線的數據倉庫,可以非常方便的使用SQL的方式來離線分析海量的歷史數據,並根據分析的結果,來幹一些其他的事情,如報表統計查詢等。 Solr作爲高性能的搜索服務器,能夠提供快速

原创 透視JVM之垃圾回收

 JVM是JAVA世界的核心,瞭解它有助於我們更好調試,調優和開發程序,最近散仙在看JAVA特種兵一書,看完覺得,作者寫的內容還是挺不錯,大家感興趣的,也可以購買本溫故而知新下。 在JVM中,我們經常提到的就是堆了,堆確實很重要,其實,除了

原创 一次bug死磕經歷之Hbase堆內存小導致regionserver頻繁掛掉

環境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在測Hbase的壓縮,H

原创 Apache Pig學習筆記(二)

 主要整理了一下,pig裏面的一些關鍵詞的含義和用法,pig雖然是一種以數據流處理爲核心的框架,但數據庫的大部分關鍵詞和操作,在pig裏面基本上都能找到對應的函數,非常靈活與簡潔,春節前的最後一篇文章了,祝大家春節快樂! 1,保留關鍵字: