原创 聚類篇——(三)K-Medoids聚類

上一篇博文介紹了常用聚類算法之一K-means聚類,對其基本思想、優缺點、邏輯計算過程以及初始中心點的確定有了一定認識。本篇博文詳細介紹另外一種常用聚類算法K-Medoids聚類。 K-Medoids算法的基本思想爲: 對於給定聚

原创 聚類篇——(二)K-means聚類

上一篇博文介紹了什麼是聚類分析以及其應用場景,本篇博文詳細介紹常用聚類算法之一K-means聚類,將從以下幾個方面展開介紹: K-means聚類基本思想及其優缺點,初步瞭解K-means聚類; K-means聚類邏輯計算過程,瞭

原创 聚類篇——(一)聚類分析概述

聚類分析是研究“物以類聚”問題的分析方法。“物以類聚”問題在社會經濟研究中十分常見。例如,收集到大型商廈的顧客自然特徵、消費行爲等方面的數據,顧客羣細分是最常見的分析需求。可從顧客自然特徵和消費行爲的分組入手,如根據客戶的年齡、職

原创 利用pyecharts+sklearn實現鏈家北京二手房房價預測

利用Python的pandas、pyecharts、sklearn庫,對之前從鏈家網站爬取的北京二手房的數據進行統計和可視化,分析北京二手房價格的影響因素,進而構建隨機森林迴歸模型對北京二手房平均價格進行預測。 環境: Python3

原创 用python 將PDF中的表格轉化爲Excel

這幾天想統計一下《中國人文社會科學期刊 AMI 綜合評價報告(2018 年):A 刊評價報告》中的期刊,但是只找到了該報告的PDF版,對於表格的編輯不太方便,於是想到用Python將表格轉成Excel格式。 看過別人寫的博客,發現Py

原创 用python構建機器學習模型分析空氣質量

空氣質量(air quality)的好壞反映了空氣污染程度,它是依據空氣中污染物濃度的高低來判斷的。空氣污染是一個複雜的現象,在特定時間和地點空氣污染物濃度受到許多因素影響。來自固定和流動污染源的人爲污染物排放大小是影響空氣質量的最主

原创 學習python抓取數據——鏈家北京二手房數據

最近在學習用Python進行數據分析、機器學習,基本都是用現成數據集進行模型訓練及驗證,想用一些實際數據看一下效果,於是想到用Python嘗試抓取一些實際數據。 目標:爬取鏈家網北京二手房房價、位置、面積等數據 環境:Python3.

原创 解決python爬蟲中文亂碼問題

今天在用python爬取網頁數據時中文顯示亂碼,最終發現是目標網頁編碼與python默認編碼‘utf-8’不一致導致的。下面把解決方法與大家分享。 step1:查看目標網頁編碼方式 在各種瀏覽器打開的任意頁面上使用F12功能鍵,即可使