原创 python網絡數據挖掘--JS隱式等待和顯式等待

第一部分:隱式等待和顯式等待      隱式等待和顯式等待的不同之處在於,隱式等待是等DOM中某個狀態發生改變後再繼續運行代碼(沒有明確的等待時間,但是有最大等待期限,只要在時限內就可以),而顯式等待明確設置了等待時間,如上篇文章中等待三

原创 python網絡數據採集-圖像識別與文字處理

第一部分:圖像識別和文字處理概述       本篇文章主要學習通過Python的庫來是被和使用在線圖片中的文字。當你不想讓自己的文字被網絡機器人採集時,把文字做成圖片放在網頁上是常用的辦法。在一些聯繫人通訊錄經常可以看到,一個郵箱地址部分

原创 python網絡爬蟲-HTTP基本接入認證

      在發明Cookie之前,處理網站登錄最常用的方法就是用HTTP基本接入認證(HTTP basic access authentication)。有時還能見到他們,尤其是在一些安全性較高的網站或公司網站,以及一些API的使用上。

原创 python網絡數據採集-如何實現文件上傳

     雖然文件上傳在網絡上很普遍,但是對於數據採集其實不太常用。但是,如果你想爲自己的網站的文件上傳功能編寫一個測試案例,也是可以實現的。不管怎麼說,掌握工作原理總是有用的。      在http://pythonscraping/f

原创 Linux/CentOS環境下如何安裝和配置PhantomJS工作環境

1. 安裝步驟 1.1 在服務器上新建想要下載和安裝的目錄: 如mkdir  PhantomJS 1.2 下載PhantomJS安裝包 wget https://bitbucket.org/ariya/phantomjs/download

原创 python網絡數據採集-處理登錄和cookie

第一部分:基礎概念       到次爲止,我們介紹過大部分表單都允許你想網站提交信息,或者讓你在提交表單後立即看到想要的頁面信息,那麼,這些表單和登錄表單(當你瀏覽網站時讓你保持“已登錄”狀態)有什麼不同?       大多數新式的網站都

原创 python中各類括號和數據定義

使用python中 初學者常會不知道如何定義序列,以及三種括號如何使用,如何表示矩陣: 1.小括號: 我們用小括號來表示一個tutle元組,這是一個不可更改的數據表示,只能讀取 2.中括號: 我們用中括號來定義一個list列

原创 Python自然語言處理-自然語言工具包(NLTK)

一. 簡介      如何理解每個單詞的具體含義。自然語言工具包(Natural Language Toolkit,NKTK)就是這樣一個python庫,用於識別和標記英語文本單詞中各個詞的詞性(parts of speech). 二.

原创 python自然語言處理-廣度優先搜索

一.概念     在前面的例子中,我們創建了收集從凱文.貝肯開始的維基百科詞條鏈接的爬蟲,最後存儲在數據庫裏。這個遊戲體現了一種從一個頁面指向另一個頁面的鏈接路徑選擇問題。這個上篇文章找出一個單詞到另一個單詞的路徑問題是一樣的。這類問題被

原创 python自然語言處理-馬爾科夫模型

1.概念學習     馬爾科夫模型常用於分析大量隨機事件,隨機事件的特點是一個離散事件發生之後,另一個離散事件將在前一個事件的條件下以一定的概率發生。以天氣的馬爾科夫模型爲例: 在這個天氣系統模型中,如果今天是晴天,那麼明天有70%的可

原创 機器學習實戰(第一篇)-機器學習基礎

      最近在從事一些大數據分析的項目,接觸到了時下非常熱門的機器學習的概念。作爲剛剛進入這一行的從業人員,我也經歷了迷茫期,不知道該如何去學習這一門新興學科。在網上查閱資料的時候,也沒有發現能夠有由淺入深介紹機器學習知識的資料。於是

原创 python網絡數據採集-Ajax和動態HTML

第一部分:基本概念        到目前爲止,我們與網站服務器的唯一通訊方式,就是發出HTTP請求獲取新頁面。如果提交表單之後,或從服務器獲取信息之後,網站的頁面不需要重新刷新,那麼你訪問的網站就在使用Ajax技術。        與一些

原创 python網絡數據採集-處理格式規範的文字

      你要處理的大多數文字都是比較乾淨的、格式規範的。格式規範的文字通常可以滿足一些需求,不過究竟什麼是“格式混亂”,什麼算“格式規範”,確實因人而異。       通常,格式規範的文字具有以下特點: 使用一個標準字體(不包含手寫

原创 python網絡數據採集-單選按鈕、複選框和其他輸入

       顯然,並非所有的網頁表單都只是一堆文字字段和一個提交按鈕。HTML標準裏提供了大量可用的表單字段:單選按鈕、複選框和下拉選框等。在HTML5裏面,還有其他控件,向滾動條(範圍輸入字段),郵箱、日期等。自定義的JavaScri

原创 python網絡數據採集-穿越網頁表單進行採集

一. 基本信息     如何獲取登錄窗口背後的信息,我們目前示例中的網絡爬蟲與大多數網站服務器進行數據交互時,都是用HTTP協議的GET方法去請求信息,這邊我們將使用POST方法,把信息推送給網絡服務器進行存儲和分析。   頁面表單基本上