台部落九茶

（更多內容請見：R、ggplot2、shiny 彙總） 1、數據框按照某一列排序：例如存放學生信息的數據框 rt(name,sex,age,score)，按照分數 score 遞減排序： > rt[order(rt[,4]

2020-06-15 05:03:36

前言：曾經模仿別人的代碼寫過幾個小爬蟲，不過都是皮毛而已，下載一些圖片，很簡單的爬蟲。現在想系統的學習一下python網絡爬蟲，包括爬蟲多線程、登陸、驗證碼、分佈式、優化等方面。學習的方式是直接爬，一點點深入，遇到問題逐個解

2020-06-15 05:03:36

更多爬蟲請見：我的爬蟲史代碼說明：曾經模仿實現過下載淘寶MM圖片的爬蟲，現在重新拾起爬蟲，也是先從下載圖片開始。本爬蟲用來下載百度壁紙（傳送門）。 1號小爬蟲主要包括兩個步驟：第一步用urllib2.urlopen()和rea

2020-06-15 05:03:36

十月的最後一天，分享一下SAS VA的安裝過程。過程有點曲折，老是出現報錯，而且因爲軟件比較大（安裝好有三十幾 G），重裝一次就要兩個鍾以上。此處分享幾個文檔（傳送門），和我在安裝過程遇到的問題，希望對有需要的人有所幫助。（因

2020-06-15 05:03:36

。

2020-06-15 05:03:36

前言：我以前就用着 SublimeText 2，但是 python 環境一直不能用。昨天看到《如何優雅地使用 Sublime Text》這篇文章，據說 SublimeText 3 能瞬間啓動，就忍不住想換掉2版了。我主要在日常查

2020-06-15 05:03:36

跳錶（SkipList）簡介：給你一個有序數組，如果現在需要查找某一個數字，你可能會用二分法。但是如果給你的是一個有序鏈表，那就用不上二分法了，你能想到什麼方法？跳錶是一種很好的選擇，理解和實現出來也相對比較容易。

2020-06-15 05:03:36

前言：玩過爬蟲的朋友應該都清楚，爬蟲難度：www > m > wap （www是PC端，m和wap是移動端，現在的智能手機一般用的是m站，部分老手機用的還是wap），原因也很簡單，現在的網站越來越多地使用AJAX加載，反爬蟲機制

2020-02-21 07:14:44

代碼請移步GitHub：SinaSpider 爬蟲功能：此項目和QQ空間爬蟲類似，主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注（詳細見此）。代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒（

2020-02-21 07:14:44

前言：這些天玩了一些SAS的地圖，用的是gmap過程步，在這裏放一下demo，有興趣的可以看看。更多可見：《 SAS_maps(二) 》。代碼請移步GitHub：SAS_maps。效果圖：資源分

2020-02-21 07:14:44

前言：春節期間，無法全身心投入地去寫爬蟲，那就玩玩驗證碼吧，應該比較有趣！首次接觸驗證碼識別，用pytesser接觸一下最簡單的驗證碼先，代碼參照：使用python以及工具包進行簡單的驗證碼識別。具體細節可以參見原文，裏面安裝

2020-02-21 07:14:44

代碼請移步GitHub：QQSpider 爬蟲功能： QQSpider 使用廣度優先策略爬取QQ空間中的個人信息、日誌、說說、好友四個方面的信息，詳細可見數據庫說明。判重使用“內存位”判重，理論上億數量級的QQ可瞬間判重，

2020-02-21 07:14:44

原文鏈接：OO field guide 。面向對象指南：這一章主要介紹怎樣識別和使用 R 語言的面向對象系統（以下簡稱 OO）。R 語言主要有三種 OO 系統（加上基本類型）。本指南的目的不是讓你精通 R 語言的 OO，

2020-02-21 07:14:44

前言：最近在 Github 裏面找 demo 學習各路大神如何用 Python 破解驗證碼。在安裝 numpy 和 scipy 的過程中遇到一些問題，在此記錄一下，希望對遇到同樣問題的同學有所幫助。主要的問題有： 1、安裝

2020-02-21 07:14:44

這算是我第一次使用框架吧，說來慚愧。此前用Request帶上cookie實現、（稍微）完善了QQ空間的爬蟲（傳送門），接下來想實現分佈式去爬。其實只要能實現待爬QQ隊列的共享，分佈式的主要問題也就解決了。但是覺得這樣實現的爬蟲

2020-02-21 07:14:44