原创 強化學習(reinforcement learning)原理

1、簡介 強化學習的任務對應一個四元組: E=<X,A,P,R>E=<X,A,P,R> X:當前狀態 A:可採取的動作總體集合 P:各個轉移狀態的概率值 R:獎賞函數 整體的過程是,對於當前狀態X,從動作集合A中選擇一個動作,作用在

原创 機器學習--聚類算法

1、聚類算法思想 聚類就是對大量未知標註的數據集,按照數據內部存在的數據特徵將數據集劃分爲多個不同的類別,使類別內的數據比較相似,類別之間的數據相似度比較小,屬於無監督學習。聚類算法的重點是計算樣本項之間的相似度,有時候也稱爲樣本間的距離

原创 Hive筆記(查詢和建表)

1、數據類型和文件格式 數據類型 創建表時需要指定字段的數據類型,hive支持一些集合數據類型,STRUCT、MAP和ARRAY: STRUCT:STRUCT << first:INT, second:STRING>> struct(

原创 機器學習--XGBoost

1、模型思想 XGBoost是GBDT改良版,都是通過多個弱學習器,不斷地減少殘差。GBDT主要是對殘差求一階導,向負梯度的方向擬合殘差,而XGBoost運用了泰勒展開,考慮到了二階導數。 2、公式推導 每次的迭代都是前面的弱學習器組合上

原创 機器學習案例--迴歸分析

目錄 1、最小二乘法 1.1 原理推導 1.2 代碼樣例 2、SKlearn 2.1 代碼樣例 2.2 多項式擴展 2.3 正則化 2.4 邏輯迴歸和多酚類 1、最小二乘法解 1.1 算法原理 迴歸算法推導 根據中心極限定理,誤

原创 tensorflow--CNN

目錄 1 卷積函數 2 池化函數 3 分類函數 4 一個示例 5 存儲模型 API文檔:https://www.tensorflow.org/api_docs/ 1 卷積函數 1 tf.nn.conv2d(input, filter,

原创 數據挖掘--常用的迴歸模型調參總結

一、XBGoost調參 步驟: 1、設定一個稍大的學習率(0.1),利用xgboost裏的cv方法去確定一個合適的迭代次數(也就是樹的個數) 2、根據參數的重要性,分別對參數進行調參,利用GridSearchCV,先進行大範圍粗調再小範圍

原创 在中文大語料庫上訓練word2vector

目錄: 1、詞向量的作用 2、詞向量的訓練方法 3、gensim實現大語料庫的word2vec 1、詞向量的作用 傳統使用one-hot表示一個詞,用multi-hot表示一個文檔。這樣做主要的問題是: 1)維度大,獨熱向量稀疏。

原创 hadoop--HDFS

1 簡介 HDFS是一個分佈式文件儲存系統,數據量越來越多,在一個操作系統管轄的範圍存不下了,那麼就分配到更多的操作系統管理的磁盤中,但是不方便管理和維護,因此迫切需要一種系統來管理多臺機器上的文件。是一種允許文件通過網絡在多臺主機上分享

原创 hadoop--HBase

1 簡介 HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。HBase利用Hadoop HDFS作爲其文件存

原创 機器學習--特徵選擇

1、特徵選擇 特徵選擇是重要的數據預處理過程,特種選擇有兩個重要的原因: 1 如果屬性過多,會造成維數災難,也就是隨着屬性變多,總體的特徵數量呈指數級增長 2 去除不相關的特徵可以降低機器學習的難度。 2、子集搜索與評價 子集搜索 子

原创 機器學習--評估指標

1 、損失函數種類 0-1損失函數 J(θ)=1Y≠f(x)J(θ)=0Y=f(x) 感知損失函數 J(θ)=1|Y−f(X)|>tJ(θ)=0|Y−f(X)|<t 平方和損失函數 J(θ)=∑i=1m(hθ(x(i)−y(i

原创 大數據--hadoop 僞分佈式環境搭建

1.安裝JDK 1.1下載JDK 1.2解壓jdk 創建文件夾:mkdir /usr/java 解壓:tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/ 1.3將java添加到環境變量

原创 機器學習--集成學習AdaBoost

Boosting概念 提升學習(Boosting)是一種機器學習技術,可以用於迴歸和分類的問題,它也是多個弱學習器組合而成,但是跟bagging不同的是,bagging的學習器是相互獨立的,但是boosting的每個學習器是基於前面的學習

原创 機器學習實戰--決策樹

分類決策樹 API class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_spli