原创 螞蟻金服-算法工程師-機器學習-面經

一面 自我介紹 專業方向 做的最好的項目 特徵處理過程 特徵,標籤 樸素貝葉斯 梯度消失和梯度爆炸 完整相關問題原文鏈接如下: https://blog.csdn.net/qq_25737169/article/details/788

原创 樣本劃分辦法

留出法 即按照一定比例留出測試樣本,一般來說測試集與訓練集互斥 交叉驗證法 k折交叉驗證 將樣本劃分爲K等份,每次留一份作爲測試,訓練K個學習器,取測試結果的平均值 k折K次 在 k折交叉驗證的基礎上重複K次(每次都是隨機劃分)。相

原创 機器學習中評價方法

經驗誤差和泛化誤差 經驗誤差=訓練誤差 泛化誤差=正式使用的誤差 ≈\approx≈測試誤差 過擬合:經驗誤差小,泛化誤差大 欠擬合:經驗誤差大 錯誤率和精度 精度: acc=1m∑i=1mI(f(xi)=yi))acc=\fra

原创 線性迴歸的五個基本假設

詳情見博文 https://blog.csdn.net/Noob_daniel/article/details/76087829

原创 KNN K近鄰

模型 相當於根據樣本對特徵空間進行了劃分。 基本思路 求出某個樣本與其他樣本的距離,它的標籤就是他最近的K個樣本的標籤 距離度量 歐氏距離 曼哈頓距離 lpl_plp​距離 https://blog.csdn.net/qq_21768

原创 線性模型

線性迴歸 模型: f(x)=ωx+bf\left(x\right)=\omega x+bf(x)=ωx+b 損失函數: loss=∑i=1N(y−f(x))2loss=\sum_{i=1}^N\left(y-f\left(x\righ

原创 樸素貝葉斯

1.貝葉斯公式 P(Y=ck∣X=x)=P(X=x∣Y=ck)P(Y=ck)∑kP(X=x∣Y=ck)P(Y=ck) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum _k {P(X=x|Y=

原创 SVM利用網格搜索和交叉驗證進行超參選擇

import numpy as np #產生正態分佈的數據100組,中心點(0,0),其標準差σ爲1 p=np.random.randn(100,2) #將中心點移動到(3.5,3.5),作爲正類 for i in range(10

原创 Precision,Recall,F1score,Accuracy的理解

Precision,Recall,F1score,Accuracy四個概念容易混淆,這裏做一下解釋。 假設一個二分類問題,樣本有正負兩個類別。那麼模型預測的結果和真實標籤的組合就有4種:TP,FP,FN,TN,如下圖所示。這4個分別

原创 SVM_Multi_class_classification

import numpy as np #產生正態分佈的數據100組,中心點(0,0),其標準差σ爲1 p=np.random.randn(100,2) #將中心點移動到(5,0),作爲第0類 for i in range(100):

原创 利用scikit-learn實現svm

構造訓練數據 import numpy as np #產生正態分佈的數據100組,中心點(0,0),其標準差σ爲1 p=np.random.randn(100,2) #將中心點移動到(3.5,3.5),作爲正類 for i in r

原创 SVM與Logistic迴歸

邏輯迴歸 hθ(x)=11+e−θxh_\theta(x)= \dfrac1{1+e^{-\theta x}}hθ​(x)=1+e−θx1​ 如果y=1,則我們希望hθ(x)≈1h_\theta(x) \approx1hθ​(x)≈1

原创 CentOS7配置http yum源

主要步驟: 1)上傳iso文件到一臺用於提供內網yum服務的主機 2)修改該主機的repo文件爲本地源 3)該主機安裝apache服務:httpd 4)複製iso內的全部文件到apache的安裝目錄供其他服務器下載 5)在其他服務器上配置

原创 Centos7掛載新硬盤

1.查看系統是否檢測到新的硬盤設備 ls /dev/ |grep sd linux 中所有外設都會在這個目錄下,對應一個文件,其中第一塊硬盤是sda,第二塊硬盤是sdb,第三塊硬盤是sdc。 其中sda1,表示該硬盤的第一個分區。

原创 Centos7設置靜態ip

1.查看ip 你需要記住你自己網卡的名字 ip addr 2.編輯網卡的配置文件 查看配置文件,找到ifcfg-你的網卡 的配置文件 cd /etc/sysconfig/network-scripts/ ls vi