原创 分類:支持向量機(二)——數值優化

       在上一篇博客中,較爲詳細的介紹了在數據完全線性可分的情況下,構建SVM模型的目標,並將構建目標轉化爲最大化幾何距離的優化過程,本篇就將介紹具體優化時的計算過程。還是一樣的,先推薦幾篇不錯的博文,大家也可以參考鏈接中的文章學習

原创 分類:決策樹——常用算法說明

       決策樹模型很早就出現了,當我們使用一連串的 “if...else...” 語句時,就已經具備了決策樹的思想了,不過當真正去構建決策樹時,就要考慮哪個先 if、哪個後 if,採用什麼樣的標準來支持我們選定先 if的屬性等,這部

原创 分類:決策樹——剪枝

      本篇是決策樹系列的第二篇,介紹一下決策樹的剪枝過程。過擬合是決策樹構建過程中常見的問題,信息失衡、噪聲等問題都會導致過擬合,剪枝則是提高決策樹模型泛化能力的重要手段,下面對常用的剪枝方法作一些介紹。 1. 預剪枝      

原创 分類:基於規則的分類技術

       基於規則的分類是一種比較簡單的分類技術,下面從以下幾個方面對其進行介紹      1.任務         所有的分類技術的任務都是利用數據集訓練出分類器,然後爲每條記錄貼上標籤,對其進行分類,基於規則的分類任務也是如此。

原创 分類:決策樹——樹的生長

       分類算法非常適合預測或描述標籤爲二元或標稱類型的數據集,對於標籤爲序數類型的數據集,分類技術則不太有效,因爲分類技術不考慮隱藏在序數中的“序”關係,對於標籤其他形式的聯繫如子類與超類(包含的關係),分類技術也不太適合。   

原创 分類:支持向量機(一)——完全線性可分

     最初學習、理解支持向量機時,有點費勁,參考了一些不錯的書籍和博客,這裏推薦一下: http://blog.pluskid.org/?page_id=683 https://www.cnblogs.com/pinard/p/609

原创 分類模型的評價及比較

       當我們得到數據模型後,該如何評價模型的優劣呢?之前看到過這樣一句話 :“儘管這些模型都是錯誤的,但是有的模型是有用的”,想想這句話也是挺有道理的!評價和比較分類模型時,關注的是其泛化能力,因此不能僅關注模型在某個驗證集上的表

原创 關聯分析(一):頻繁項集及規則產生

       關聯分析用於發現隱藏在大型數據集中有意義的聯繫,屬於模式挖掘分析方法,其爲人熟知的經典應用當屬沃爾瑪超市裏“啤酒與尿布”的關係挖掘了。關聯分析的應用領域非常多,當數據集類型比較複雜時,進行關聯分析採用的手段也相對複雜,本篇從

原创 對accuracy、precision、recall、F1-score、ROC-AUC、PRC-AUC的一些理解

  最近做了一些分類模型,所以打算對分類模型常用的評價指標做一些記錄,說一下自己的理解。使用何種評價指標,完全取決於應用場景及數據分析人員關注點,不同評價指標之間並沒有優劣之分,只是各指標側重反映的信息不同。爲了便於後續的說明,先建立一個

原创 linux服務器間配置ssh免密連接

 先說一下,我用的centos7,root用戶。ssh的原理就不說了,網上介紹的文章很多,直接開始說操作步驟吧: 1.首先確認有沒有安裝ssh,輸入 rpm -qa |grep ssh查看 這樣就表示安裝了ssh,沒有的話就先安裝ssh

原创 linux系統中離線安裝python3.7過程記錄

最近公司新弄來一臺linux  redhat 4.4.7服務器,準備在上面離線安裝python3.7,安裝過程中出現一些問題,特此記錄下來。 首先在python官網上下載了 Python-3.7.3.tgz文件,放在/usr/local/

原创 psycopg2模塊安裝問題

         我的平臺是win10(x64)、python3.7,打算通過psycopg2模塊來操作Greenplum數據庫,我通過pip install psycopg2 安裝了psycopg2模塊,也提示安裝成功了,可是我在imp

原创 spark-submit提交python腳本過程記錄

        最近剛學習spark,用spark-submit命令提交一個python腳本,一開始老報錯,所以打算好好整理一下用spark-submit命令提交python腳本的過程。先看一下spark-submit的可選參數 1.sp

原创 記錄一次讀取hdfs文件時出現的問題java.net.ConnectException: Connection refused

  公司的hadoop集羣是之前的同事搭建的,我(小白一個)在spark shell中讀取hdfs上的文件時,執行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/

原创 CSDN上的最後一篇博客,決定換地方了

        最近VIP年卡快到期了,準備續一下,然後打開網頁一看,年卡的費用變成了298RMB,去年是128,這一年後竟然翻了一倍多,頓時火上心頭,作爲一個知識共享平臺,不應該這麼狠的從我們這些普通的知識共享者身上拔羊毛,覺得盈利模式