原创 機器學習之k-近鄰

1. K近鄰定義k近鄰算法,也成爲KNN算法,是一種基本分類與迴歸算法。它在基本實現上,使用的是多數表決的惰性學習過程。也就是它實際上是基於記憶的學習方法。它並沒有學出一個什麼判別模型,其實也沒有像貝葉斯那樣算出一個新東西,而是簡單的統計

原创 決策樹、Bagging、隨機森林、Boosting、AdaBoost、GBDT、XGBoost

1、決策樹    一、決策樹的優點和缺點     優點: 決策樹算法中學習簡單的決策規則建立決策樹模型的過程非常容易理解, 決策樹模型可以可視化,非常直觀 應用範圍廣,可用於分類和迴歸,而且非常容易做多類別的分類 能夠處理數值型和連續的樣

原创 淺談循環神經網絡(RNN)

1.RNN怎麼來的?循環神經網絡的應用場景比較多,比如暫時能寫論文,寫程序,寫詩,但是,(總是會有但是的),但是他們現在還不能正常使用,學習出來的東西沒有邏輯,所以要想真正讓它更有用,路還很遠。這是一般的神經網絡應該有的結構: 既然我們已

原创 BILSTM+CRF中文命名實體識別

https://www.jianshu.com/p/09af2dc2b65d https://blog.csdn.net/ARPOSPF/article/details/81106212 https://github.com/Determ

原创 機器學習之感知機

感知機模型是二類分類的線性分類模型,其輸入爲實例的特徵向量,輸出爲實例的類別,取+1和-1二值。感知機對應於輸入空間(特徵空間)中將實例劃分爲正負兩類的分離超平面,屬於判別模型。感知機學習旨在求出將訓練數據進行線性劃分的分離超平面,爲此,

原创 kaggle比賽

Titanic Data Science SolutionsI have released a new Python package Speedml which codifies the techniques used in this n

原创 使用tensorflow來解決MNIST手寫體數字識別問題

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 # 輸入層的節點數。對於MN

原创 線性迴歸與邏輯迴歸

      迴歸算法是一種通過最小化預測值與實際結果值之間的差距,而得到輸入特徵之間的最佳組合方式的一類算法。對於連續值預測有線性迴歸等,而對於離散值/類別預測,我們也可以把邏輯迴歸等也視作迴歸算法的一種。線性迴歸主要用來解決連續值預測的

原创 k-fold cross validation(k-摺疊交叉驗證),python pandas (ix & iloc &loc) 的區別

交叉驗證的目的:在實際訓練中,模型通常對訓練數據好,但是對訓練數據之外的數據擬合程度差。用於評價模型的泛化能力,從而進行模型選擇。交叉驗證的基本思想:把在某種意義下將原始數據(dataset)進行分組,一部分做爲訓練集(train set

原创 jieba中文處理

jieba中文處理by 寒小陽([email protected])和拉丁語系不同,亞洲語言是不用空格分開每個有意義的詞的。而當我們進行自然語言處理的時候,大部分情況下,詞彙是我們對句子和文章理解的基礎,因此需要一個工具去把

原创 python正則表達式(2)

Python正則表達式by 寒小陽([email protected])正則表達式是處理字符串的強大工具,擁有獨特的語法和獨立的處理引擎。我們在大文本中匹配字符串時,有些情況用str自帶的函數(比如find, in)可能可以

原创 機器學習面試題

https://blog.csdn.net/a2524289/article/details/78888480 1.支持向量機(SVM)的優缺點: VM的優缺點 優點: (1)非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高

原创 java面試總結

    https://www.cnblogs.com/aishangJava/p/9865925.html 一、Set集合。其主要實現類有HashSet、TreeSet。存放對象的引用,不允許有重複對象。  代碼:   public

原创 hbase(圖片)

 

原创 中文分詞技術及應用

中文分詞技術及應用 中文分詞算法有5大類: 1、 基於詞典的方法 2、基於統計的方法 3、基於規則的方法 4、基於字標註的方法 5、基於人工智能的技術(基於理解)的方法 中文分詞目前有4個瓶頸: 1、分詞歧義 2、未登陸詞識別