原创 鏈家全國房價數據分析 : 數據分析及可視化

相關文章:鏈家全國房價數據分析 : 數據獲取 上一回我們提到了用爬蟲爬取鏈家的新樓盤和二手房數據信息,這回我們來看看如何對他們進行分析。 新樓盤數據分析 因爲我們爬的時候是一個個城市爬的,現在我們要把他們合在一起,首先呢我們需要知道一

原创 鏈家全國房價數據分析 : 數據獲取

最近一直在看論文,也有很久沒有coding了,感覺對爬蟲的技術有些生疏,我覺得即使現在手頭沒有在做這方面的東西,經常爬點對技術保鮮還是很重要的。所以這次我打算爬鏈家的房價數據,目的主要是對爬蟲和Python的東西作一個鞏固,然後做一個

原创 神經網絡初步與反向傳播算法

層數表示 輸入數據的層叫輸入層(input layer) 輸出結果的層叫輸出層(output layer) 除了這兩層之外的層都叫隱藏層(hidden layer) 激活函數 每個結點的激活函數,通常都是sigmoid函數 g(x)=

原创 邏輯迴歸 logistic regression 算法原理及優化

概述 邏輯迴歸也叫對數機率迴歸 “邏輯迴歸”雖然叫回歸,但是卻是一種分類方法,跟線性迴歸(linear regression)有着顯著的不同。 優點:無需事先假設數據分佈,可以避免假設分佈不準確帶來的問題;不是預測出類別,而是給出近

原创 K最近鄰(k-Nearest Neighbor,KNN)分類算法

概述 K最近鄰(k-Nearest Neighbor,KNN)分類算法是最簡單的機器學習算法。 它沒有訓練的過程,它的學習階段僅僅是把樣本保存起來,等收到測試集之後再進行處理,屬於“懶惰學習”。反之,在訓練階段就對樣本進行學習的算法屬

原创 線性迴歸 linea regression 原理及推導

概述 優點:容易計算,易於理解和實現 缺點:容易欠擬合 適用數據類型:數值型和標稱型 口頭描述 線性迴歸試圖構造一個線性函數,去擬合儘可能多的樣本點。重點是如何確定線性函數的參數,使得該函數儘量穿過樣本點,一般使用均方誤差最小化來

原创 SVM支持向量機算法原理

特點概述 優點: 泛化性能好,計算複雜度低,結果容易解釋 缺點: 對參數和核函數選擇敏感,原始分類器不加修改僅適用於二分類問題 適用數據類型:數值型和標稱型數據 口頭描述 SVM認爲可以使用一個超平面將數據集分隔開來,距離超平面最

原创 特徵工程筆記

雖然說特徵工程很大程度上是經驗工程,跟具體業務相關,但是我們可以根據一些思路來進行,以下是我在實踐過程中總結出來的一些思路,希望能給大家帶來一點啓發。 思路與過程 0.概覽數據 使用數據可視化工具對數據進行概覽 0.1 對原始數據進行

原创 劍指offer 第一個只出現一次的字符

題目描述 在一個字符串(1<=字符串長度<=10000,全部由字母組成)中找到第一個只出現一次的字符,並返回它的位置 解題思路 我們遍歷這個字符串,假設每個當前字符都是隻出現一次的,我們分別向前和向後考察是否存在相同字符 向前考察:保存

原创 scrapy爬取豆瓣電影教程

最近在做爬蟲,也很久沒更博客了,這篇長文就算是一個開更禮吧,Duang 在爬取之前,你得確保你已經有以下的條件: python3 環境 (在我的機子上是python 3.6.5) scrapy 已經安裝 有一個Python的

原创 劍指offer 把數組排成最小的數

題目描述 輸入一個正整數數組,把數組裏所有數字拼接起來排成一個數,打印能拼接出的所有數字中最小的一個。例如輸入數組{3,32,321},則打印出這三個數字能排成的最小數字爲321323。 解題思路 3 32 321 先轉化成stri

原创 python可視化之seaborn

數據可視化的文章我很久之前就打算寫了,因爲最近用Python做項目比較多,於是就花時間讀了seaborn的文檔,寫下了這篇。 數據可視化在數據挖掘中是一個很重要的部分,將數據用圖表形式展示可以很直觀地看到數據集的特點(比如正態分佈,長尾

原创 劍指offer 數字在排序數組中出現的次數

題目描述 統計一個數字在排序數組中出現的次數。 解題思路 一個數字在排序數組中的分佈一定是連續的,題目其實是一個在排序數組中查找數字的意思,我使用二分查找 代碼 class Solution { public: int GetNu

原创 Titanic:數據挖掘入門的第一步

關鍵詞: 數據挖掘 機器學習 預測 Python 這個項目是kaggle上的一個入門級項目,專門給新手做的,這個項目比較簡單,但是涉及到了數據挖掘和機器學習的各個方面,有關的文章和解釋和很多,所以呢,這個比較適合新手上車 看完這個教程並

原创 手把手教你配置阿里雲服務器搭建網站

寫在前面 出於好奇,我用學生優惠租了一臺阿里雲服務器,打算做一些Java web的開發,但是畢竟是第一次接觸這樣的東西,還是比較懵逼,在這個過程中遇到了一些問題(肯定會遇到問題的),但是呢,在網上搜解決辦法的時候,總是歷經波折才能找到我最