原创 Python爬蟲||Xpath-以豆瓣電視劇爲例

XPath——全稱XML Path Language,即XML路徑語言,它是一門在XML文檔中查找信息的語言。它最初是用來搜尋XML文檔的,但是它同樣適用於HTML文檔的搜索。所以在爬蟲裏就可以直接使用Xpath來進行數據獲取,而

原创 Python爬蟲||BeautifulSoup4庫-以小豬短租爲例

由於上次的文章被同學吐槽了,正則表達式過於麻煩,那就用BeautifulSoup庫吧,比正則表達式簡單太多了!只需要簡單的幾條語句,即可完成網頁中某個元素的提取。他是python的一個HTML或者XML的解析庫,主要的功能是解析和

原创 Python爬蟲||正則表達式與re模塊-以貓眼電影爲例

正則表達式 學完爬蟲了,也要期末考試了QAQ,趁着複習趕緊記一波筆記,都是重點QAQ,這大概就是沒有好好聽課的痛。 什麼是正則表達式 簡單來說,就是通配符,通過某些特定的字符組合組成一個規則字符,來對字符串達到過濾的效果。比如wo

原创 深入淺出介紹Hadoop

深入淺出介紹Hadoop一、Hadoop的由來二、Hadoop介紹三、Hadoop的優勢我的Hadoop系列框架 一、Hadoop的由來 1998年9月4日,一個影響世界的搜索引擎誕生於美國硅谷,就是家喻戶曉的Google。 而在

原创 Hadoop基本框架介紹

Hadoop的三大發行版本 Hadoop的三大發行版本包括:Apache、Cloudera、Hortonworks。 其中: Apache版本是最原始(最基礎)的版本 對於入門學習的新手比較推薦。 官網地址:http://had

原创 命令行窗口的解釋及使用

命令行窗口的解釋及使用爲什麼學習使用命令行Windows命令行 爲什麼學習使用命令行 在我印象裏,很少有用到命令行做什麼工作,這種情況持續了很久,我一直以爲任何軟件工具都是應該有一個圖形界面的。但近些時間在學習中發現,有一些非常優