原创 外行學 Python 第十一篇 數據可視化

在 外行學 Python 爬蟲 第九篇 讀取數據庫中的數據 中完成了使用 API 從數據庫中讀取所需要的數據,但是返回的是 JSON 格式,看到的是一串的字符串數據不是很好理解,這篇將介紹如何將數據進行可視化。 數據可視化選用 pyecha

原创 人生就像算法訓練

最近幾年人工智能的發展越來越快,從自動駕駛到網上購物到處都有人工智能的身影,人工智能推薦算法在給人們帶來方便的同時,也引起了人們的疑慮,有對技術的懷疑也有對算法的懷疑,實際上技術和算法沒有好壞,有的是使用它們的人。就像人一樣,嬰孩就想一張

原创 外行學 Python 爬蟲 第十篇 爬蟲框架Scrapy

前面幾個章節利用 python 的基礎庫實現網絡數據的獲取、解構以及存儲,同時也完成了簡單的數據讀取操作。在這個過程中使用了其他人完成的功能庫來加快我們的爬蟲實現過程,對於爬蟲也有相應的 python 框架供我們使用「不重複造輪子是程序員的

原创 信息時代,知識獲取既簡單又困難

當前這個時代對想要學習的人來說是最好的時代,人們獲取知識的途徑無限擴大,人們獲取知識的成本無限降低,但是知識的增多成本的降低,給我們帶來了另外一個問題——知識的雜音過多,這就需要我們有過濾和分辨的能力。 近十年以來,人們獲取信息的途徑從書

原创 SQLAlchemy 數據表自關聯

我們說數據表關係時,默認說的是數據表之間的關係「一對多、一對一、多對多等等」。而在實際應用中常常會遇到數據表內的關聯,比如現在互聯中的一個名詞「關注者」和「被關注者」,他們都在用戶範圍內,只是兩個用戶之間的關係。 關係是描述現實世界的實

原创 外行學 Python 爬蟲 第九篇 讀取數據庫中的數據

前面的一至八篇我們一直在研究如何從網站上快速、方便的獲取數據,並將獲取到的數據存儲在數據庫中。但是將數據存儲在數據中並不是我們的目的,獲取和存儲數據的目的是爲了更好的利用這些數據,利用這些數據的前提首先需要從數據庫按一定的格式來讀取數據,這

原创 外行學 Python 爬蟲 第八篇 功能優化

在前一篇中講了如何開啓多線程來加快爬蟲的爬取速度,本節主要對爬蟲爬取內容機型優化,將生產商信息單獨獨立出來作爲一張數據庫表,不再僅僅是存儲一個生產商的名稱,同時保存了生產商的網址和介紹。 解析生產商信息 針對生產商頁面的信息的解析方法請參考

原创 外行學 Python 爬蟲 第七篇 開啓多線程加快爬取速度

經過上一篇文章外行學 Python 爬蟲 第六篇 動態翻頁我們實現了網頁的動態的分頁,此時我們可以爬取立創商城所有的原件信息了,經過幾十個小時的不懈努力,一共獲取了 16萬+ 條數據,但是軟件的效率實在是有點低了,看了下獲取 10 萬條數據

原创 外行學 Python 爬蟲 第六篇 動態翻頁

前面幾篇文章,初步完成了從網絡請求、數據解析、數據存儲的整個過程,完成了一個爬蟲所需的全部功能。但是通過對數據庫中數據的分析會發現數據庫中的元件數量比網站上的元件數量少了很多。前面的實現過程通過解析網頁中的連接來獲取元件詳細信息頁面,解析出

原创 外行學 Python 爬蟲 第五篇 數據存儲

前面一至四篇我們學習瞭如何使用 python 來獲取網頁並將網頁中的有效數據解析出來,當獲取到有效數據以後,不可能將數據放在內存中,一旦系統出現問題辛辛苦苦獲取的數據都付諸東流了,此時需要考慮數據持久化的事情,數據持久化我們有兩種選擇一是將

原创 職場人如何避免中年危機?

程序員這個羣體所面臨的兩個主要問題「所謂的 35 歲大齡危機」和「日新月異的技術更新」,當面對這兩個問題的時候我想每個人都會產生焦慮。面對這種情況我們只能不斷的積累技術能力,從流逝的時間中獲得比別人更多的回報,讓自己走在同類人的前面,從而使

原创 外行學 Python 爬蟲 第四篇 URL 去重

當你可以從網站上獲取網頁,也可以將網頁中有效的信息提取出來以後,接下來你會做什麼?我想它一定是一個肯定的答案『獲取整個網站的內容』,畢竟只獲取網站上一個網頁的內容聽起來和看起來都不是那麼的高大上,只有將整個網站的內容提取出來它才能稱得上爬蟲

原创 外行學 Python 爬蟲 第三篇 內容解析

從網絡上獲取網頁內容以後,需要從這些網頁中取出有用的信息,畢竟爬蟲的職責就是獲取有用的信息,而不僅僅是爲了下來一個網頁。獲取網頁中的信息,首先需要指導網頁內容的組成格式是什麼,沒錯網頁是由 HTML「我們成爲超文本標記語言,英語:Hyper

原创 外行學 Python 爬蟲 第二篇 獲取內容

一個無法獲取內容的爬蟲不是一個真正的爬蟲,爬蟲的首要目標是從網絡上獲取內容。目前我們所看到的網頁都是通過超文本傳輸協議「英語:HyperText Transfer Protocol,縮寫:HTTP」在服務器和客戶端之間進行數據交換。 從網站

原创 外行學 Python 爬蟲 第一篇 介紹

爲什麼標題叫做“外行學 Python 爬蟲”?是因爲本人非 IT 互聯網從業人員,唯一能說得上關係的是本人是一個 C 的開發人員,從事的是與嵌入式相關的工作,即與互聯網無關,也與數據分析無關。那麼爲什麼要學 Python 爬蟲呢?原因一、多