原创 R語言零碎知識集合

(更多內容請見:R、ggplot2、shiny 彙總) 1、數據框按照某一列排序: 例如存放學生信息的數據框 rt(name,sex,age,score),按照分數 score 遞減排序: > rt[order(rt[,4]

原创 我的爬蟲史

前言: 曾經模仿別人的代碼寫過幾個小爬蟲,不過都是皮毛而已,下載一些圖片,很簡單的爬蟲。 現在想系統的學習一下python網絡爬蟲,包括爬蟲多線程、登陸、驗證碼、分佈式、優化等方面。學習的方式是直接爬,一點點深入,遇到問題逐個解

原创 1號小爬蟲:普通的爬蟲,下載百度壁紙

更多爬蟲請見:我的爬蟲史 代碼說明: 曾經模仿實現過下載淘寶MM圖片的爬蟲,現在重新拾起爬蟲,也是先從下載圖片開始。本爬蟲用來下載百度壁紙(傳送門)。 1號小爬蟲主要包括兩個步驟:第一步用urllib2.urlopen()和rea

原创 SAS Visual Analytics(VA)安裝教程

十月的最後一天,分享一下SAS VA的安裝過程。過程有點曲折,老是出現報錯,而且因爲軟件比較大(安裝好有三十幾 G),重裝一次就要兩個鍾以上。此處分享幾個文檔(傳送門),和我在安裝過程遇到的問題,希望對有需要的人有所幫助。 (因

原创 SublimeText3 安裝和配置,以及配置 Python 環境

前言: 我以前就用着 SublimeText 2,但是 python 環境一直不能用。昨天看到《如何優雅地使用 Sublime Text》這篇文章,據說 SublimeText 3 能瞬間啓動,就忍不住想換掉2版了。我主要在日常查

原创 淺識SkipList

跳錶(SkipList)簡介: 給你一個有序數組,如果現在需要查找某一個數字,你可能會用二分法。 但是如果給你的是一個有序鏈表,那就用不上二分法了,你能想到什麼方法? 跳錶是一種很好的選擇,理解和實現出來也相對比較容易。

原创 爬蟲福利:教你爬wap站

前言: 玩過爬蟲的朋友應該都清楚,爬蟲難度:www > m > wap (www是PC端,m和wap是移動端,現在的智能手機一般用的是m站,部分老手機用的還是wap),原因也很簡單,現在的網站越來越多地使用AJAX加載,反爬蟲機制

原创 新浪微博爬蟲分享(一天可抓取 1300 萬條數據)

代碼請移步GitHub:SinaSpider 爬蟲功能: 此項目和QQ空間爬蟲類似,主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注(詳細見此)。 代碼獲取新浪微博Cookie進行登錄,可通過多賬號登錄來防止新浪的反扒(

原创 SAS_maps(一)

前言: 這些天玩了一些SAS的地圖,用的是gmap過程步,在這裏放一下demo,有興趣的可以看看。 更多可見:《 SAS_maps(二) 》。 代碼請移步GitHub:SAS_maps。 效果圖: 資源分

原创 Python處理驗證碼第一篇(pytesser初探及報錯處理)

前言: 春節期間,無法全身心投入地去寫爬蟲,那就玩玩驗證碼吧,應該比較有趣! 首次接觸驗證碼識別,用pytesser接觸一下最簡單的驗證碼先,代碼參照:使用python以及工具包進行簡單的驗證碼識別。具體細節可以參見原文,裏面安裝

原创 QQ空間爬蟲分享(一天可抓取 400 萬條數據)

代碼請移步GitHub:QQSpider 爬蟲功能: QQSpider 使用廣度優先策略爬取QQ空間中的個人信息、日誌、說說、好友四個方面的信息,詳細可見數據庫說明。 判重使用“內存位”判重,理論上億數量級的QQ可瞬間判重,

原创 R語言面向對象指南

原文鏈接:OO field guide 。 面向對象指南: 這一章主要介紹怎樣識別和使用 R 語言的面向對象系統(以下簡稱 OO)。R 語言主要有三種 OO 系統(加上基本類型)。本指南的目的不是讓你精通 R 語言的 OO,

原创 Python報錯:Visual C++ is required和ImportError: DLL load failed

前言: 最近在 Github 裏面找 demo 學習各路大神如何用 Python 破解驗證碼。在安裝 numpy 和 scipy 的過程中遇到一些問題,在此記錄一下,希望對遇到同樣問題的同學有所幫助。 主要的問題有: 1、安裝

原创 Scrapy見面第五天

這算是我第一次使用框架吧,說來慚愧。 此前用Request帶上cookie實現、(稍微)完善了QQ空間的爬蟲(傳送門),接下來想實現分佈式去爬。其實只要能實現待爬QQ隊列的共享,分佈式的主要問題也就解決了。但是覺得這樣實現的爬蟲