原创 決策樹基本概念

信息量 I=log⁡2mI=\log_2mI=log2​m 如果兩隊比賽,只有兩個結果,m=2。I=1,信息量爲1 世界盃32支隊伍,冠軍的信息量I=log⁡232=5I=\log_232=5I=log2​32=5 上面公式有個前提,

原创 hadoop3.1.1集羣安裝問題

這裏不講步驟,只講遇到問題 首先配置幾個-site.xml hadoop3端口號默認的改了 Namenode 端口: 50470 --> 9871 50070 --> 9870 8020 --> 9820 Secondary NN 端

原创 SVM

點到目標函數距離 如圖 y=w⋅x+b=0y=w \cdot x +b =0y=w⋅x+b=0 y1=w⋅x1+b=1y_1=w \cdot x_1 +b =1y1​=w⋅x1​+b=1 ① y2=w⋅x2+b=−1y_2=w \c

原创 solr大批量數據導出

需求 有100個core,每個core4000w數據量。把所有數據導出來。 方案1. 直接對每個core通過HttpSolrClient先取出總條數,然後通過每次分頁讀n行,直到讀完,這個方案肯定不行,因爲越到後面,讀取速度越慢,不用

原创 統計-參數估計

參數估計 在數理統計中,我們見到的總體X一般都是未知的。 即便根據以往的經驗和數據,知道X服從哪類分佈,,其數字特徵(數學期望,方差,矩)也是未知的。 這些未知的數字特徵以及含在總體X中的未知數稱爲未知參數未知參數 簡稱參數 爲了估計未知

原创 多元函數的極值

多元函數的極值 定義 z=f(x,y) (x,y)∈∈ D,M0(x0,y0)∈D(M0是D的內點),U(M0,δ(域))⊂DM0(x0,y0)∈D(M0是D的內點),U(M0,δ(域))⊂D 若f(x0,y0x0,y0 )是函數z=f(

原创 統計-隨機變量的數字特徵

第四章 隨機變量的數字特徵 數學期望 例子 成績 0分 1分 2分 3分 4分 5分 人數 2 5 8 15 12 8 頻率 2/50 5/50 8/50 15/50 12/50 8/50 平均成績爲 (0×2+1×5

原创 markdown數學公式基本語法

數學公式語法Tags: Markdown語法越來越喜歡markdown這個輕量級的編輯語言了,對記筆記真的是很方便。以下給出數學公式輸入的基本語法,供平時查閱,如果有遇到新的重要語法將繼續補充在這裏。說明: 每個部分均是先展示語法,然後展

原创 BP推導

圖 符號 xijxij :第j行數據,第i個神經元輸入 wlijwijl :第l層的第i個神經元的到第l+1層的第j個神經元的權重 blbl :第l層的偏置bias zlizil :第l層第i個神經元的的輸入 aliail​ :第I層

原创 統計-樣本及抽樣分佈

第六章 樣本及抽樣分佈 在概率中,我們所研究的隨機變量的分佈都是假設已知的。 在數理統計中,我們研究的隨機變量的分佈是未知的,或者是不完全知道的。我們通過對隨機變量進行大量重複、獨立的觀察,收集書記,然後對數據進行整理,分析,從而對所研究

原创 統計-隨機變量

隨機變量 定義 設隨機試驗E的樣本空間爲S={e},若X=X(e)是定義在樣本空間S的上的一個單值實函數,則稱X=X(e)爲隨機變量 簡單說,讓每一個樣本點e對應着唯一的實數X(e),便得到隨機變量X=X(e) 離散型隨機變量 若隨機變

原创 logistic迴歸公式推導

假設函數 h(θ)=11+e−θTXh(θ)=11+e−θTX 爲什麼使用sigmod 這個網上有很多文章,但是還是不太看懂。大概就是0-1之間增函數,還有是指數分佈簇。 代價函數 J(θ)=−1m∑i=1m[yilog(hθ(xi))+

原创 線性迴歸損失函數推導-最大似然

把統計看了一遍就是爲了這裏! 線性迴歸假設函數爲 y=θTXy=θTX 之前是根據函數圖像推導出損失函數爲誤差平方和,這次用統計學方法推導。 擬合數據,就是把誤差減到最小 誤差ϵ=y−θTXϵ=y−θTX 。 假設誤差服從正態