原创 MySQL主從配置,實現數據備份。

Replication是MySQL提供的數據庫同步複製功能,增強了MySQL數據庫的穩定性,對我們實現數據庫的容災、備份帶來了極大好處。優點是配置簡單並且MySQL自身的replicate消耗整體資源不到1%。 1.安裝MySQL 1)在

原创 從RocketMQ接收數據投放到Kafka--java示例

package iie.rocketmq; import com.alibaba.rocketmq.client.consumer.DefaultMQPushConsumer; import com.alibaba.rocketmq.c

原创 推薦系統基礎知識

1      推薦系統基礎知識 1.1    推薦模型類別 推薦模型類別很多,調研了幾種比較常見、應用比較多的類型 1.1.1基於人口統計學的推薦 1.1.1.1 機制 基於人口統計學的推薦機制是一種最易於實現的推薦方法,它只是簡單的根據

原创 Ansj中文分詞使用教程

摘要: ansj是一個基於n-Gram+CRF+HMM的中文分詞的java實現. ansj分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上 Ansj目前實現了.中文分詞.詞性識別. 中文姓名識別 . 用

原创 spark 樸素貝葉斯(naive bayes)模型save與load優化

Spark MLLIB中Naive Bayes(樸素貝葉斯)分類模型的保存與加載速度在實際應用場景中,比較慢,先對樸素貝葉斯模型save與load進行優化。優化後,save與load速度提高很多倍(優化前需要4-5分鐘,而且比較容易出現問

原创 大數據集羣遇到的問題(Hadoop、Spark、Hive、kafka、Hbase、Phoenix)

大數據平臺中遇到的實際問題,整理了一下,使用CDH5.8版本,包括Hadoop、Spark、Hive、kafka、Hbase、Phoenix、Impala、Sqoop、CDH等問題,初步整理下最近遇到的問題,不定期更新。 啓動nodema

原创 Solr評分排序機制

1      默認評分排序規則 1.1    默認評分規則 Solr是基於Lucene的,評分規則也是基於Lucene,具體詳情參考“Lucene評分機制.docx”文檔, 網頁版:http://blog.csdn.net/a82263

原创 cdh集羣節點系統文件損壞,重裝系統恢復Hdfs數據

由於意外,集羣中的一個節點系統壞了,重裝系統後,把該節點添加集羣中,恢復hdfs數據。 思路:主要問題是把hdfs的數據恢復,由於hdfs的機制very good,只要把節點從集羣中刪掉,再添加進集羣中,

原创 安裝Redis

Redis安裝文檔,按照以下步驟即可安裝成功。最近要用Redis,翻出了很久以前整理的安裝文檔,順便貼到這。 1.下載安裝包 redis下載地址:http://download.redis.io/releases/redis-3.0.5.

原创 Hdfs存儲負載均衡

環境:cdh5.8 生產環境中,隨着數據量的增長,集羣進行了擴容,新增節點數據較少。平衡配置還是比較合理的,但是好像一直沒有按照配置來,現在是一個1.8的盤,2個3.6的盤。現在1.8使用滿了,3.6的使用2.5。 在配置界面搜索“平衡

原创 scala中takewhile 和 filter的區別

之前認爲takewhile的功能與過濾一樣,後來項目用takewhile發現數據不對,區別如下: al s1 = List(1,2,3,4,10,20,30,40,5,6,7,8,50,60,70,80) val r1 = s1.tak

原创 Spark Streaming 教程文檔--概述、基本概念、性能調優

SparkStreaming教程 本文章主要講述SparkStreaming概念原理、基本概念、以及調優等一些知識點。 1      概述 1.1  SparkStreaming是什麼 Spark Streaming 是個批處理的流式(實

原创 常用排序算法(java版)

概述:1)插入排序(直接插入排序、希爾排序)2)交換排序(冒泡排序、快速排序)3)選擇排序(直接選擇排序、堆排序)4)歸併排序5)分配排序(基數排序)所需輔助空間最多:歸併排序所需輔助空間最少:堆排序平均

原创 HashMap和LinkedHashMap的區別

java爲數據結構中的映射定義了一個接口java.util.Map;它有四個實現類,分別是HashMap Hashtable LinkedHashMap 和TreeMap. Map主要用於存儲健值對,根據鍵得到值,因此不允許鍵重複(重

原创 自省

這些年有些事情印象比較深刻,記錄下來提醒自己。 遇到事,鎮定,先別表達情緒,多思考,自己決定做的事,不後悔,不抱怨。 當人面臨生存問題時,往往會鋌而走險,毅無反顧,尊嚴、內心並不能阻止什麼。 做事情,在絕大多數情況下只看結果。 求人辦事