原创 Solr6.3.0 embedde模式入庫

  雖然從solr4開始官方文檔就不在推薦embedded模式入庫,但是這種模式可以多臺機器,每臺機器多進程併發入庫,速度很快。   solr4的 embedded入庫就要改一堆配置,solr5往後,結構有變化,單機模式配置文件統

原创 kafka

kafka 組件 broker kafka集羣中包含一個或多個服務器,服務器節點爲broker broker存儲topic的數據。如果某topic有N個partition,集羣有N個broker,那麼每個broker存儲該topi

原创 梯度下降(Gradient Descent)小結

    在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度     在微積分裏面,對多元

原创 最小二乘多元迴歸代價函數-最小值求解(正規方程)

先求偏導,通過矩陣乘法,算出參數A的值

原创 數據算法-hadoop3 TopN

topN 全世界都一樣。。。先map取topN,在reduce把各個map的topN取topN map時候top10cast.put後,所有的value都會變成最新的一個,應該是地址引用問題,之前從來沒有注意。只能put之前先to

原创 寫在分類開頭

爲什麼起名叫機器學習從入門到放棄,因爲機器學習太難了,說不定哪天就放棄了。起名叫從入門到放棄,當然是想先入門。希望能夠先堅持到入門。。

原创 最小二乘一元迴歸代價函數-最小值求解(初等數學)

如圖,用配方法很簡單

原创 softmax交叉熵

多分類問題 神經網絡輸出多個類型,每個類型需要判斷正確的概率,這個時候logisticregression就不行了,我們就需要新的函數來解決這個問題,也就是softmax,稱歸一化指數函數。 softmax 公式 δ(z)=exp

原创 數據算法-hadoop5 反轉排序

  反轉排序,看書看了半天,才搞明白是什麼鬼。反轉排序和控制反轉的反轉估計是一個意思,就是把排序的權利反轉給了開發者。   主要通過組合鍵自定義排序和patitioner按照自然鍵分區實現   例子是文檔前後領域的詞頻,一個詞

原创 數據算法-hadoop4 左鏈接

左鏈接很簡單的,主要是把左表的id和右表關聯id分別放入map的key中,value分別放入兩邊要關聯出來的其他值,在reduce時拼接起來。 書上PairOfStrings類,我找了半天,竟然找到了edu.umd.cloud9

原创 數據算法-hadoop6 移動平均

移動平均很簡單,就是先二次排序,然後把按時間排完序的值,算出平均值。 排序算法 //通過數組模擬隊列,求出平均值 public class MovingAverage { private double sum = 0.

原创 solr6.3.0集羣安裝

需要軟件:   Jdk1.8 ,tomcat8,zookeeper3.4.8,必須用jdk1.8和tomcat8不然沒法使用。 第一步:安裝jdk1,8   步驟省略。。。 第二步:安裝zk 1.下載zookeeper3.4.8

原创 pmbok第六版itto整理

pmbok第六版itto