原创 【Apache Solr系列之一】Apache Solr 4.5.1環境搭建及MYSQL數據導入

這幾天倒騰了很久的solr,總感覺有點迷糊,總結了下,寫了一個文檔。 搭建準備: 1、apache solr4.5.1下載:http://mirrors.cnnic.cn/apache/lucene/solr/4.6.0/solr-4.6

原创 【Apache Solr系列之三】Solr客戶端SolrJ API使用文檔-增刪改

通過之前兩篇文章的學習之後,使用solr對mysql進行數據導入以及增量索引應該都會了! (還不清楚的童鞋請查看以下博文進行學習:http://blog.csdn.net/weijonathan/article/details/16962

原创 【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper環境部署

1、下載數據包 wget http://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gz wget http://archive.apache.org/dis

原创 【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分佈式部署

一、HADOOP安裝配置步驟 1.1、服務器的準備 四臺Redhat服務器 192.168.130.170 master 192.168.130.168 dd1 192.168.130.162 dd2 192.168.130.248 d

原创 【Apache Solr系列之二】Apache Solr 4.5.1及MYSQL數據增量索引

其實solr增量索引很簡單,只要修改data-config.xml文件爲以下內容就可以了! (還不知道solr環境搭建以及mysql數據導入的可以看我上一篇博文:http://blog.csdn.net/weijonathan/artic

原创 【HTTPClient 系列】HttpClient4.2.5上傳文件,無中文文件名問題

轉載請註明:http://blog.csdn.net/weijonathan/article/details/9328509 最近這段時間在研究HttpClient,想實現一個基於Http上傳文件的功能。通過網上的很多文章,做了一個Htt

原创 【Apache HBase系列】HBase ORM框架GORA使用文檔

開源框架 Apache GORA 提供了一個內存中的大數據的數據模型和持久性。 Gora 支持列存儲,關鍵值存儲,文檔存儲和關係數據庫管理系統,具有廣泛的Apache Hadoop的MapReduce的支持和分析數據。 GORA使用步驟:

原创 【Apache Solr系列之四】Solr客戶端SolrJ API使用文檔-查詢實例

在上一篇文章中已經學了SolrJ的增刪改。本篇來學習下查詢的一些實例 (還未了解SolrJ 增刪改的可以查看以上博文:http://blog.csdn.net/weijonathan/article/details/16963437) 1

原创 【Apache HBase系列】HBASE之RowKey排序解析

學了hbase一段時間了,近端時間在進行表設計的時候一直沒搞清楚rowkey的排序規則是怎麼樣的。找了一些資料之後,原來rowkey的排序方式是以ASCII進行比較的。 以下是ASCII對照表格及描述,希望對學Hbase的朋友有幫助:

原创 【Apache Nutch系列】Nutch2.0配置安裝異常集錦

1、java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration  Exception in thread "main" java.lang.NoC

原创 【Apache Hadoop】MapReuce 編程總結-多MapReduce執行

學習hadoop,必不可少的就是寫MapReduce程序,當然,對於簡單的分析程序,我們只需一個MapReduce就能搞定,這裏就不提單MapReuce的情況了,網上例子很多,大家可以百度Google一下。對於比較複雜的分析程序,我們可能

原创 重磅消息-Apache Flink1.7中文官方文檔GitBook大公開

大家好,最近一段時間沒有更新公衆號,還請大家見諒! 現在給大家帶來一個好消息,我將公開近期我一直在努力翻譯的Apache Flink中文官方文檔的GitBook,希望能幫助大家一起學習Flink,一起提升! 本文檔由我個人耗費2個月時間

原创 2018年20個主要的大數據認證

“大數據”一詞反映了一個非常實際的增長趨勢。到2020年,每個人每秒將產生1.7MB數據。根據調研機構IDC公司的調查,2020年全球數據量將增加到44萬億GB。數以億計的智能手機和數十億臺物聯網(IoT)設備每分鐘產生的近300萬個

原创 Flink源碼解析 | 從Example出發:理解Flink啓動流程

從《Apache Flink本地部署》這篇文章中可以看到,我們啓動集羣都是通過腳本start-cluster.sh開始執行。 我們的源碼解析之路就從flink的bash腳本入手。 start-cluster.sh bin=`dirn

原创 Apache Flink本地模式部署

Apache Flink部署模式有好幾種,本文主要介紹Apache Flink的本地部署模式。 本地部署模式主要用於開發者程序調試測試使用。 先決條件 運行系統:系統方面沒有過多要求,Linux、Mac、Windows均可 Java