原创 Solr6.3.0 embedde模式入庫
雖然從solr4開始官方文檔就不在推薦embedded模式入庫,但是這種模式可以多臺機器,每臺機器多進程併發入庫,速度很快。 solr4的 embedded入庫就要改一堆配置,solr5往後,結構有變化,單機模式配置文件統
原创 kafka
kafka 組件 broker kafka集羣中包含一個或多個服務器,服務器節點爲broker broker存儲topic的數據。如果某topic有N個partition,集羣有N個broker,那麼每個broker存儲該topi
原创 梯度下降(Gradient Descent)小結
在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度 在微積分裏面,對多元
原创 最小二乘多元迴歸代價函數-最小值求解(正規方程)
先求偏導,通過矩陣乘法,算出參數A的值
原创 數據算法-hadoop3 TopN
topN 全世界都一樣。。。先map取topN,在reduce把各個map的topN取topN map時候top10cast.put後,所有的value都會變成最新的一個,應該是地址引用問題,之前從來沒有注意。只能put之前先to
原创 寫在分類開頭
爲什麼起名叫機器學習從入門到放棄,因爲機器學習太難了,說不定哪天就放棄了。起名叫從入門到放棄,當然是想先入門。希望能夠先堅持到入門。。
原创 最小二乘一元迴歸代價函數-最小值求解(初等數學)
如圖,用配方法很簡單
原创 softmax交叉熵
多分類問題 神經網絡輸出多個類型,每個類型需要判斷正確的概率,這個時候logisticregression就不行了,我們就需要新的函數來解決這個問題,也就是softmax,稱歸一化指數函數。 softmax 公式 δ(z)=exp
原创 數據算法-hadoop5 反轉排序
反轉排序,看書看了半天,才搞明白是什麼鬼。反轉排序和控制反轉的反轉估計是一個意思,就是把排序的權利反轉給了開發者。 主要通過組合鍵自定義排序和patitioner按照自然鍵分區實現 例子是文檔前後領域的詞頻,一個詞
原创 數據算法-hadoop4 左鏈接
左鏈接很簡單的,主要是把左表的id和右表關聯id分別放入map的key中,value分別放入兩邊要關聯出來的其他值,在reduce時拼接起來。 書上PairOfStrings類,我找了半天,竟然找到了edu.umd.cloud9
原创 數據算法-hadoop6 移動平均
移動平均很簡單,就是先二次排序,然後把按時間排完序的值,算出平均值。 排序算法 //通過數組模擬隊列,求出平均值 public class MovingAverage { private double sum = 0.
原创 solr6.3.0集羣安裝
需要軟件: Jdk1.8 ,tomcat8,zookeeper3.4.8,必須用jdk1.8和tomcat8不然沒法使用。 第一步:安裝jdk1,8 步驟省略。。。 第二步:安裝zk 1.下載zookeeper3.4.8
原创 pmbok第六版itto整理
pmbok第六版itto