原创 python高級爬蟲筆記(2)

提高爬蟲效率主要從三個方面開始複習。 併發 ip cookies 併發必然引發的一個結果就是反爬蟲機制,這種時候爬蟲的效率不會因爲併發而提高,反而會因爲網站的防禦機制拖累爬蟲的速度。 自然而然地就引出了2,代理爬蟲。代理爬蟲能

原创 python高級爬蟲筆記(1)

寫在前面 selenium 雖然是新手友好型的爬蟲工具,但是個人覺得絕對不是適合新手入門的爬蟲。 推薦在瞭解了 requests體系 的爬蟲,有了爬蟲的一些常識之後,再來看selenium。 事實上,requests體系的爬蟲已經

原创 No.77 組合:回溯法

結果 執行用時 :636 ms, 在所有 cpp 提交中擊敗了15.29%的用戶 內存消耗 :167.7 MB, 在所有 cpp 提交中擊敗了8.43%的用戶 時間消耗和空間消耗有點高,不過在使用回溯法的前提下,這是最優解吧。

原创 Java課設中的問題以及解決方案(三)

前言 這次進行Java的大作業,雖然是一拖三,不過還是準備做得漂亮一點.Java還是很有趣的,並且可能以後工作室項目能用得到. 嗯,如果做得好了,就請自己去搓一頓! 思路 需求分析 架構 界面設計 需求分析 這是一個項目的開始

原创 python高級爬蟲筆記(3)

引入 根據筆者以往的爬蟲經驗,大部分的爬蟲是在靜態網頁上完成的,爬蟲所要做的只不過是提交請求,然後分析返回的頁面即可。當然,api本質上也可以作爲靜態頁面來處理。這意味着只要掌握requests就可以完成60%-80%的爬蟲任務。

原创 Java課設中的問題以及解決方案(一)

前言 開發環境 系統環境: macOS Catalina 10.15 java版本: JDK12 開發環境: eclipse 2019-06 (4.12.0) 繪圖工具: notebility\Procreate Ps.界面設

原创 Redis學習筆記(2):進階功能

3 進階功能 3.1 慢查詢 說明 慢查詢發生在第3階段(執行命令階段) 客戶端超時不一定慢查詢,但慢查詢是客戶端超時的一個可能 配置 slowlog-man-len 先進先出隊列 固定長度 保存在內存內,即,隨重啓而

原创 搭建一個基於flask和redis的代理池(proxy pool)

在進行網頁爬蟲的項目時,常常會因爲爬取的頻率過高而觸發 反爬蟲機制 ,這時候,面臨兩個選擇: 休息片刻。一般反爬蟲機制不會進行永久的IP封禁,只是暫時限制訪問而已,等待封禁時間結束再進行爬取即可。當然對於某些擁有黑名單機制的網站

原创 No.84 柱狀圖中最大的矩形

結果 法一: 法二: 思路 代碼 解法一: class Solution { public: int largestRectangleArea(vector<int>& heights) { int

原创 python高級爬蟲筆記(4)

前言 到這裏,python爬蟲部分的複習也就告一段落了,當然,除了scrapy,老實說,對於平常爬取幾千條這種小打小鬧的爬蟲,並沒有去深入研究scrapy的必要(當然,瞭解還是要了解一下的)。 之前學習爬蟲,因爲需求的原因,只學習

原创 Redis學習筆記(1):Redis基礎

1. 基礎 1.1 常識 Redis是用C語言開發的一個開源的高性能鍵值對(key-value)數據庫。它通過提供多種鍵值數據類型來適應不同場景下的存儲需求,目前爲止Redis支持的鍵值數據類型如下: 字符串類型 散列類型 列表

原创 Java課設中的問題以及解決方案(二)

windowbuilder安裝和使用 類比於在VS stdio上開發c#,eclipse有對應的GUI開發工具,也就是windowbuilder. 當然同類型的工具也有NetBeans等.編程雖然有趣,但是本身是一件很麻煩的事情,