原创 爲了讓大家更好地學習python爬蟲,我們做了一個“靶子”

1很多學習 python 的同學應該都聽說過“網絡爬蟲”的概念,也可能聽說過用 python 寫網絡爬蟲很方便。那麼什麼是爬蟲?百度百科上是這麼定義的:網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的

原创 代碼喫雞:Python-Robocode

最近看到一個很有“未來感”的新聞:一輛特斯拉在拉斯維加斯出了車禍,撞“死”了一個……emmmm……機器人。不知道是意外還是炒作,又或者是這位機器人故意碰瓷,反正人們也無法從受害者口中瞭解“被特斯拉撞是怎樣一種體驗”了。圖爲受害者,

原创 工欲善其事必先利其器:用什麼寫Python?

通常來說,每個程序員都有自己趁手的兵器:代碼編輯器。你要是讓他換個開發環境,恐怕開發效率至少下降三成。然而,每個人對編輯器的喜好各不相同,甚至引發出諸如“神的編輯器”與“編輯器之神”這種信仰之爭。但也正由此可見,個性化的編輯器對於

原创 Crossin:有必要學編程嗎?

咱們編程教室有個現象:雖然這裏全是講編程相關的內容,但保守估計有一半以上的讀者並不是程序員,而是對編程有興趣/有需求、打算入門/剛入門/多次入門編程的初學者。在這樣的讀者羣裏,自然普遍存在一個靈魂拷問:我到底有沒有必要學編程?朋友圈的插

原创 如何選擇一個合適的練手項目

最近在組織編程擂臺活動(前文:碼上行動的同學,你有一個機會等待簽收),會幫學員們挑選合適的項目,在實踐中提升編程能力。 在選題過程中,有些普遍被關注的問題,今天在這裏集中聊一聊,包括我這些年指導學生的一點經驗,供各位參考。 W

原创 從數據上看:誰纔是漫威的絕對C位

復聯4上映了!這次比美國還早了兩天。當然,我還沒看,不會給你們劇透,當然也不想不劇透。這一部不僅是滅霸這一線劇情的結局,也被認爲漫威第三階段的收官之作。據說此部之後,不少影迷熟知的角色(演員)就要離開漫威世界的熒幕了。因此剛上映就備受

原创 [數讀]從開戶數看這一波牛市

注:本文首發於2019年3月11日。本想等3月的官方報告出來後修正文中數據。但很神奇的是,本文發佈之後,中登公司的每週數據就再無更新。直到近日,公佈了3月的月度數據,確實在意料之中,環比增加了一倍。最近的股市有點熱鬧:上證指數從201

原创 2018電影票房分析-誰纔是票房之王

去年末的時候,我招收了新的“實訓生”。本文是其中一位 @齊大聖 同學在實訓兩個月時完成的項目案例。(碼上行動羣裏同學應該都看過這個名字,現在也是助教之一。)項目最初的想法是,從互聯網上的公開信息中採集2018年在國內上映電影的票房、評

原创 北京全年天氣狀況分析

本文來自 @範洺源 投稿,在其基礎上做了點修改最近在學爬蟲和數據分析,看到天氣網上有國內城市一年的天氣歷史數據,想以此爲數據源練習一下,於是就有了這個項目。今天在此簡單介紹一下實現思路和最終效果。用到的相關庫包括:requestsbs

原创 這可能是我用過最“強大”的API:Marvel API

我們在編程教室中寫過不少使用 API 開放接口的案例,比如:查詢書影音的豆瓣(爬蟲 網站開發實例:電影票比價網)查詢股票的tushare(想用 Python 做數據分析?先玩玩這個再說)翻譯單詞的詞霸(【每週一坑解答】自動翻譯)用來做

原创 工慾善其事必先利其器:用什麼寫Python?

通常來說,每個程序員都有自己趁手的兵器:代碼編輯器。你要是讓他換個開發環境,恐怕開發效率至少下降三成。然而,每個人對編輯器的喜好各不相同,甚至引發出諸如“神的編輯器”與“編輯器之神”這種信仰之爭。但也正由此可見,個性化的編輯器對於一個

原创 如何在一臺電腦上同時使用 Python 2 和 Python 3

Python 的版本是這幾年被開發者詬病的一大槽點,也讓衆多新手頭疼不已。逐漸退居二線的老版本 2 存在不少缺陷但應用廣泛,而新版本 3 爲了徹底解決歷史遺留問題決定另起爐竈不向後兼容。對於開發者來說,如果要更新版本,將有大量的代碼移

原创 用 Python 實現你的量化交易策略

Python 的學習者中,有相當一部分是衝着爬蟲去的。因爲爬蟲可以幫你解決很多工作和生活中的問題,節約你的生命。不過 Python 還有一個神祕而有趣的應用領域,那就是量化交易。量化交易,就是以數學模型替代人的主觀判斷來制定交易策略。

原创 BeautifulSoup:網頁解析利器上手簡介

關於爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關注在如何把網頁上的內容抓取下來。今天我們來分享下,當你已經把內容爬下來之後,如何提取出其中你需要的具體信息。網頁被抓取下來,通常就是str 字符串類型的對象,要從裏面尋

原创 爬蟲 網站開發實例:電影票比價網

注:一篇去年的舊文,發現沒在知乎發過,過來補個檔。有個小問題是項目中淘票票的網頁反爬提升且變動較多,目前暫不可用了。時常有同學會問我類似的問題:我已經學完了 Python 基礎,也照着例子寫過一點爬蟲代碼 / 瞭解過 django 的