原创 1 描述統計入門

你好

原创 可視化圖代碼彙總

從網絡上下載真實數據CSV文件,本數據集彙總了從1970年到2011年之間美國大學各專業中女生數佔總學生數的百分比例數值,如下圖所示: 1970-2011各專業女生百分比例 利用Pandas庫導入CSV文件,並快速繪製生物學專

原创 Python 中的range,以及numpy包中的arange函數

Python 中的range,以及numpy包中的arange函數 range()函數 函數說明: range(start, stop[, step]) -> range object,根據start與stop指定的範圍以及

原创 單變量分析繪製-學習筆記

import numpy as np import pandas as pd from scipy import stats,integrate #stats統計簡寫,integrate積分 import matplotlib.pyplo

原创 heatmap學習筆記

#heatmap熱度圖,seaborn中常用的圖,也是我最喜歡畫的一種圖 #重要點思維:拿到一批數據一般會求特徵之間的相關係數,可以用padas直接求出來相關係數,放到heatmap,可以很清楚的看到兩個特徵的相關程度,這是一個固定

原创 分類屬性設置-可視化

分類繪圖屬性設置 #senborn繪製迴歸分析,使用seaborn的內置數據集‘tips’,是pandas的dataframe格式 #直接點head,total_bill 消費金額,tip 消費,sex性別,smoker是否抽菸,

原创 轉載]利用Python進行數據分析——繪圖和可視化 xticks-學習筆記

http://blog.csdn.net/ssw_1990/article/details/23739953 Python有許多可視化工具,但是我主要講解matplotlib(http://matplotlib.sourceforge

原创 文本過濾器

def text_filter(msg,censored_word = 'lame',changed_word = 'Awesome'): return msg.replace(censored_word,changed_word

原创 9.5 58同城scrapy爬取代碼示例及存入Mongodb中

案例:爬取58同城 爬取58同城步驟如下: - 在命令行輸入 scrapy startproject city58,使用cd city58進入項目目錄,使用scrapy genspider city58_test 58.com生成爬蟲

原创 9.2 scrapy安裝及基本使用

https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下載即可。 安裝完方法2 後需要回到方法1繼續安裝,不是說方法2完成後,scrapy就安裝好了。 報錯情況下安裝下面的twisted而不是

原创 2 初始爬蟲

創建第一個案例,一般用第三方庫和內置庫 -urllib庫 -requests庫 aikspath (通用的不可能像上面這麼簡單) 用的是from 什麼 import 什麼 p標籤,class屬性

原创 9.3 scrapy選擇器的用法,css,xpath,正則。pyquery

scrapy至少有三種選擇器,很大很多。理論上學會兩種就夠用了。 項目組都用一個選擇器最好了。 一定要學會正則表達式。 第一種介紹CSS選擇器 標籤成對出現。 div,p不管div和p有什麼關係,都搜索出來 div p 選擇d

原创 9.5 Scrapy項目管道爬取58實戰代碼

spider文件: yield函數 ,這個函數沒有結束,還可以繼續返回,這裏千萬不能return,return就結束了1條數據。 這才yield出去到管道,才管道開始了。 yield item是yield到管道,yield reques

原创 8.1 淘寶實戰selinum代碼完整

案例三:爬取淘寶) 1 mongodb打開方法之前講過。+++ 2 如果用requests的方式需要準備一定量的ip,所以此次採用selinum方式 3 注意此次使用pyquery解析,和前端掛鉤。 -----------------

原创 5 pandas報存數據

with open 方法 for 循環寫入 點write 一譯中文官方文檔:http://python.usyiyi.cn/ 爬取《小王子》豆瓣短評的數據,並把數據保存爲本地的excel表格 import