原创 機器學習系列-數據歸一化和數據處理

數據歸一化 數據歸一化的原因:在實際應用中,樣本的不同特徵的單位不同,會在求距離時造成很大的影響。比如:在兩個樣本中腫瘤大小的分別爲1cm和5cm,發現時間分別爲100天和200天,那麼在求距離時,時間差爲100、大小差爲4,那麼其結果

原创 機器學習系列-線性迴歸學習

簡單線性迴歸 kNN算法屬於分類(Classification),即label爲離散的類別型(categorical variable),如:顏色類別、手機品牌、是否患病等。 而簡單線性迴歸是屬於迴歸(regression),即label

原创 機器學習系列-K-Means算法

3.K-Means 介紹 K-Means :最爲經典的基於劃分的聚類方法,是十大經典數據挖掘算法之一。 基本思想:以空間中k個點爲中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。 3.

原创 機器學習系列-梯度下降

梯度下降介紹 梯度介紹: 在微積分裏面,對多元函數的參數求∂偏導數,把求得的各個參數的偏導數以向量的形式寫出來,就是梯度。比如函數f(x,y), 分別對x,y求偏導數,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,簡稱grad f(x

原创 機器學習系列-數據拆分和結果評價

1.數據集分類 機器學習中的數據分爲訓練數據集、驗證數據集和測試數據集。 通常,在訓練有監督的機器學習模型的時候,會將數據劃分爲訓練集、驗證集合測試集,劃分比例一般爲0.6:0.2:0.2。對原始數據進行三個集合的劃分,是爲了能夠選出效果

原创 機器學習系列-KNN

簡單概述:k-近鄰算法採用測量不同特徵值之間的距離方法進行分類。 k-近鄰算法的一般流程 對未知類別屬性的數據集中的每個點依次執行以下操作: (1)計算已知類別數據集中的點與當前點之間的距離; (2)按照距離遞增次序排序; (3)選取與當

原创 機器學習系列-邏輯迴歸學習

邏輯迴歸介紹 邏輯迴歸假設數據服從伯努利分佈,通過極大似然函數的方法,運用梯度下降來求解參數,來達到將數據二分類的目的。 邏輯迴歸(Logistic Regression)是一種用於解決二分類(0 or 1)問題的機器學習方法,用於估計某

原创 ElasticSearch 6 集羣安裝 以及 client端代碼實現

ElasticSearch 6 集羣安裝 以及 client端代碼實現