原创 KNN(K近鄰)總結

一、KNN思想簡介    KNN 採用的是“物以類聚,人以羣分”的思想。也就是找出K個距離待遇測點最近的數據點,然後根據這K個點的類別(或者數值),根據一定的規則判斷(或者計算)得到帶預測點的類別(或者數值)。    KNN的核心就是找出

原创 特徵工程(總結)

一、數據清洗    1.1 預處理    1)數據處理工具的選擇: 一般選用數據庫處理和Python等工具處理。    2)查看數據的元數據以及數據特徵    1.2 缺省值處理(刪除、補全)     缺省值處理的一般步驟:確定缺省值範圍

原创 線性迴歸及其梯度下降法(小結)

所謂迴歸,就是根據已知數據集及其標籤集預測出一個模型,並可以根據這個預測出來的模型預測出未知標籤的數據對應的值。常見的迴歸方法有:線性迴歸、Lasso迴歸、Ridge迴歸、多項式迴歸、決策樹等。線性迴歸,就是根據實際數據集和標籤集,找到最

原创 決策樹(DecisionTree)

一、決策樹前置知識準備    1.1 信息熵    信息熵也叫香農熵,其計算公式爲:    1.2 條件熵    在給定X的條件下,所有的不同x值的條件下Y的熵的平均值叫做條件熵。    計算公式爲:    1.3 純度度量的公式(值越大

原创 HMM算法概述(總結)

一:馬爾科夫簡述    1.1 馬爾科夫性質:設{X(t), t ∈ T}是一個隨機過程,E爲其狀態空間,若對於任意的t 1 <t 2 < ...<t n <t,任意的x 1 ,x 2 ,...,x n ,x∈E,隨機變量X(t)在已知變

原创 Git的一些常用操作

查看狀態  命令行:$ git status 查看項目的分時支們(包括本地和遠程)  命令行: $ git branch -a 刪除本地分支  命令行: $ git branch -d <BranchName> 刪除遠程分支  命令行:

原创 深度學習之目標檢測與目標識別

一 目標識別分類及應用場景    目前可以將現有的基於深度學習的目標檢測與識別算法大致分爲以下三大類:     ① 基於區域建議的目標檢測與識別算法,如R-CNN, Fast-R-CNN, Faster-R-CNN;    ② 基於迴歸的

原创 深度學習之卷積神經網絡(Convolutional Neural Networks, CNN)(二)

    前面我們說了CNN的一般層次結構, 每個層的作用及其參數的優缺點等內容. 這一節將在前一節的內容的基礎上, 討論CNN中的參數初始化, CNN過擬合的處理方法, 參數學習的方法, CNN的優缺點等內容.一 CNN參數初始化及參數學

原创 深度學習之卷積神經網絡(Convolutional Neural Networks, CNN)(一)

    前面, 我們介紹了DNN及其參數求解的方法(BP算法),我們知道了DNN仍然存在很多的問題,其中最主要的就是BP求解可能造成的梯度消失和梯度爆炸的問題.那麼,人們又是怎麼解決這個問題的呢?本節的卷積神經網絡(Convolution

原创 Sql之基礎語法(筆記)

sql語法規則: ①總是以關鍵字開頭,分號結尾 ②不區分大小寫 最重要的SQL命令: SELECT - 從數據庫中提取數據 UPDATE - 更新數據庫中的數據 DELETE - 從數據庫中刪除數據 INSERT INTO - 向數據庫

原创 SQL函數及總結

1.MAX()函數==>返回所選列的最大值 --MAX語法 SELECT MAX(column_name) FROM table_name WHERE condition; --eg: SELECT     MAX(user_age

原创 SQL進階語法(筆記)

SELESCT TOP子句==>指定返回記錄的數量 注意:1)不是所有的數據庫都支持。2) MySQL==> LIMIT     ORACLE ==> ROWNUM 在MySQL中的用法: SELECT column_name(s) F

原创 NLP之Seq2Seq

如果你沒有學習過LSTM的知識,那麼你可以參考下筆者的前面的一篇文章:深度學習之RNN(循環神經網絡) 一 什麼是Seq2Seq? 所謂Seq2Seq(Sequence to Sequence), 就是一種能夠根據給定的序列,通過特定的方

原创 樸素貝葉斯算法(Naive Bayes)

一.相關公式    先驗概率P(A):在不考慮任何條件下,根據經驗或樣本統計給出的事件發生的概率.    條件概率P(B|A):A事件發生的條件下,事件B發生的概率.         後驗概率P(A|B):事件B發生後,對事件A的概率的重

原创 深度學習之RNN(循環神經網絡)

一 RNN概述     前面我們敘述了BP算法, CNN算法, 那麼爲什麼還會有RNN呢?? 什麼是RNN, 它到底有什麼不同之處? RNN的主要應用領域有哪些呢?這些都是要討論的問題.     1) BP算法,CNN之後, 爲什麼還有R