原创 安利十二個常用的IPython魔法命令

不能以偏概全哈,就我個人而言,在日常編程中一般都會用到兩個編譯器——Pycharm和Jupyter,在刷算法、寫爬蟲時會用到前者,因爲我習慣用Pycharm裏的Debug功能調試,很容易找出代碼中的Bug。 而進行數據分析、機器學

原创 二分查找及對應的幾道經典題目

二分查找(Binary Search)屬於七大查找算法之一,又稱折半查找,它的名字很好的體現出了它的基本思想,二分查找主要是針對的是有序存儲的數據集合。 假設有一個集合和一個待查找的目標值,每次都通過將目標值和處於集合中間位置的元

原创 Python數據分析——《隱祕的角落》開播之後就沒下過熱搜?

不會吧、不會吧,不會還有朋友沒看《隱祕的角落》吧,如果沒有斷網的話,最近朋友圈、微博等都應該被這部只有十二集的國產網劇刷屏了。開播初豆瓣評分就已經達到9.0,甚至一度竄到9.2,要知道國產電視劇過9分的都寥寥無幾,更何況還只是一部

原创 一文湊齊四種變量轉換方法!

在一份數據集中通常會遇見兩類數據——數值型與類別型,數值型變量通常就是int、float類型,類別型變量就是object類型,也就是我們總說的字符型變量。如果更官方地講,數值型變量被稱作定量變量、類別型變量被稱作定性變量。 數值型

原创 Kaggle競賽入門實戰——機器學習預測房屋價格

這篇文章是介紹一個完整的機器學習小項目——預測房屋價格,它是Kaggle競賽中入門級的題目,和我們比較熟悉的泰坦尼克號生存預測處於同一等級。在之前介紹KNN算法時,曾用過這個數據集,但只是通過簡單的建模幫助理解KNN的思想,本文會

原创 python數據分析——擇偶標準與黑名單

誕生背景 不偏不倚,恰好單身20年,這對於一個優秀的人是特別苦惱的,我也漸漸陷入了自我懷疑中,可是想來想去除了與高 富 帥 不太搭邊外,我也沒有什麼致命的缺點呀,慢慢地,朋友都知道我爲何而愁: 可能我還是沒有意識到自身的問題,所

原创 機器學習筆記(二)——KNN算法之手寫數字識別

算法簡介 手寫數字識別是KNN算法一個特別經典的實例,其數據源獲取方式有兩種,一種是來自MNIST數據集,另一種是從UCI歐文大學機器學習存儲庫中下載,本文基於後者講解該例。 基本思想就是利用KNN算法推斷出如下圖一個32x32的

原创 機器學習入門級實例——針對葡萄酒質量進行建模

數據背景 本文數據取至於UCI——歐文大學機器學習數據庫,是一個免費且十分好用的數據庫,在學習機器學習時會接觸一個基礎的數據集——鳶尾花,就是歐文大學提供的,本文就是在一個名叫葡萄酒品質的數據集的基礎上進行建模 附上數據鏈接:數據

原创 機器學習筆記(七)——初識邏輯迴歸、不同方法推導梯度公式

一、算法概述 邏輯迴歸(Logistic)雖帶有迴歸二字,但它卻是一個經典的二分類算法,它適合處理一些二分類任務,例如疾病檢測、垃圾郵件檢測、用戶點擊率以及上文所涉及的正負情感分析等等。 首先了解一下何爲迴歸?假設現在有一些數據點

原创 Python實現淘寶爬取——奶粉銷售信息爬取及其數據可視化

簡介 雙十一剛過,TB的銷售額又創下了新高,我也爲2000+億做出了貢獻 恰巧買了一袋德運奶粉,味道還不錯。我就在想,接觸爬蟲也有兩個多月了,還沒有爬過TB這種經典的網站,藉着勁頭就爬取了一下TB上奶粉的銷售信息 爬蟲 在淘寶框搜

原创 機器學習筆記(九)——手撕支持向量機SVM之間隔、對偶、KKT條件詳細推導

SVM概述 支持向量機(SVM)是一種有監督的分類算法,並且它絕大部分處理的也是二分類問題,先通過一系列圖片瞭解幾個關於SVM的概念。 上圖中有橙色點和藍色點分別代表兩類標籤,如果想要將其分類,需要怎麼做呢?可能有的夥伴會想到上

原创 python基於pandas數據分析實例——FIFA球員數據簡單分析

pandas+matplotlib=簡單數據分析1、簡介2、需要用到的庫3、代碼正文 1、簡介 最近在學習數據分析,這也是python比較熱門的一個方向,結合爬蟲能分析許多東西,數據是在kaggle上找到的,上面很多實用性很強的數

原创 機器學習筆記(五)——輕鬆看透樸素貝葉斯

一、算法概述 貝葉斯算法是基於統計學的一種概率分類方法,而樸素貝葉斯是其中最簡單的一種;樸素貝葉斯屬於監督學習的算法之一,一般用來解決分類問題,我們之所以稱之爲"樸素",是因爲整個形勢化過程只做最原始、最簡單的假設,即假設數據集所

原创 機器學習筆記(十)——這樣推導SMO算法才易理解

線性支持向量機 上一篇文章對支持向量機的間隔、對偶和KKT條件做了詳細推導,但前文的基礎是原始問題爲線性可分問題,所以對線性不可分訓練數據是不適用的,這時需要引入一個新定義:軟間隔。 假如訓練數據中有一些特異點,也就是分類會出錯的

原创 機器學習筆記(六)——樸素貝葉斯構建“飢餓站臺”豆瓣短評情感分類器

前文回顧 上一篇文章介紹了樸素貝葉斯算法的相關知識,包括以下幾方面: 樸素貝葉斯算法的基本原理 公式推導貝葉斯準則(條件概率公式) 構建訓練、測試簡易文本分類算法 拉普拉斯平滑修正 其中公式推導這一部分較爲重要,利用條件概率解