python 博客URL列表校驗

原創

2020-04-03 13:03

在構建了博客列表之後，要做一些校驗，比如判斷有沒有重的或漏的，就要把URL全部提取出來。

代碼：

import re

fp = open('D:\\in.txt', 'r',encoding="utf-8")
html = fp.read()
all_url = re.findall('https://blog.csdn.net/nameofcsdn/article/details/[0-9]+',str(html),re.IGNORECASE)
all_url = list(set(all_url))
fp = open('D:\\csdn.txt', 'w')
s=0
for each in all_url:
    fp.write(each+'\n')
    s=s+1
print(s)

只要把含所有博客URL的正文內容複製粘貼到in.txt中，運行程序即可。

得到所有URL之後還可以用excel排序，用beyond compare比較差異。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

malloc/free 與 new/delete的區別與聯繫

本文是轉載自http://blog.sina.com.cn/s/blog_4d3a41f4010116ha.html malloc與free是C++/C語言的標準庫函數，new/delete是C++的運算符。它們都可用於申請動態內存和釋放

2020-07-05 19:53:05

讀取字符串的字符時出錯無法讀取內存

讀取字符串的字符時出錯無法讀取內存0.引言1.string類型2.string類型的打印 0.引言 malloc與new的區別！報錯： 1.string類型在寫鏈表的時候，節點的定義中使用了string類型，如果是使用stri

2020-07-05 13:44:37

力扣OJ 面試題 05.04. 下一個數

下一個數。給定一個正整數，找出與其二進制表達式中1的個數相同且大小最接近的那兩個數（一個略大，一個略小）。示例1: 輸入：num = 2（或者0b10）輸出：[4, 1] 或者（[0b100, 0b1]）示例2: 輸入：num

2020-07-04 21:58:41

ACM模板（5）整數相關計算

//二進制中1的個數 //把整數轉化爲字符串 //把字符串轉化爲整數 //二進制中1的個數 int hammingWeight(int n) { int ans = 0; while (n) { n ^= (n&(-n));

2020-07-04 21:58:41

ACM總結——庫函數（2）C標準庫stdlib

1，字符串轉爲整數 1 double atof(const char *str) 把參數 str 所指向的字符串轉換爲一個浮點數（類型爲 double 型）。 2 int atoi(const char *str) 把參數 s

2020-07-04 21:58:41

ACM總結——庫函數（1）STL算法函數

1，全排列 next_permutation 下一個全排列 prev_permutation 上一個全排列返回值是bool類型，表示操作成功或者操作失敗（沒有上一個或下一個全排列） char sn[40]; next_permutat

2020-07-04 21:58:41

C#中new一個對象的過程說明

在代碼中我們經常能看到下面這樣的語句。 [csharp] view plain copy A a = new A();(1) B b = null;(2) C c;(3) 代碼（1）創建A

2020-07-04 16:29:28

電梯控制算法（1）單電梯場景——簡單掃描算法

電梯系列，自然要從最簡單的單電梯場景開始。 1，電梯狀態電梯狀態可以分爲空閒、開門、上下移動三個狀態，爲了便於理解，我們可以忽略開門狀態。也就是說，電梯分爲空閒狀態和移動狀態。 2，樓層一般有2種，一種是1~n層，沒有地下，

2020-07-01 02:49:20

力扣周賽 1488. 避免洪水氾濫（min型線段樹）

你的國家有無數個湖泊，所有湖泊一開始都是空的。當第 n 個湖泊下雨的時候，如果第 n 個湖泊是空的，那麼它就會裝滿水，否則這個湖泊會發生洪水。你的目標是避免任意一個湖泊發生洪水。給你一個整數數組 rains ，其中： rains[i]

2020-07-01 02:49:20

力扣周賽 1487. 保證文件名唯一

給你一個長度爲 n 的字符串數組 names 。你將會在文件系統中創建 n 個文件夾：在第 i 分鐘，新建名爲 names[i] 的文件夾。由於兩個文件不能共享相同的文件名，因此如果新建文件夾使用的文件名已經被佔用，系統會以 (k)

2020-07-01 02:49:20

力扣周賽 1486. 數組異或操作

給你兩個整數，n 和 start 。數組 nums 定義爲：nums[i] = start + 2*i（下標從 0 開始）且 n == nums.length 。請返回 nums 中所有元素按位異或（XOR）後得到的結果。示例

2020-07-01 02:49:20

力扣OJ 劍指 Offer 06. 從尾到頭打印鏈表

輸入一個鏈表的頭節點，從尾到頭反過來返回每個節點的值（用數組返回）。示例 1：輸入：head = [1,3,2] 輸出：[2,3,1] 限制： 0 <= 鏈表長度 <= 10000 //翻轉vector template

2020-07-01 02:49:20

力扣OJ 劍指 Offer 03. 數組中重複的數字

找出數組中重複的數字。在一個長度爲 n 的數組 nums 裏的所有數字都在 0～n-1 的範圍內。數組中某些數字是重複的，但不知道有幾個數字重複了，也不知道每個數字重複了幾次。請找出數組中任意一個重複的數字。示例 1：輸入： [2

2020-07-01 02:49:20

C/C++ qsort/sort函數性能測試

1，c++ sort函數，比較函數直接return 0或者1 int cmp(int a, int b) { return 1; } #define p 2 int ns[p]; int main() { c

2020-07-01 02:49:20

力扣OJ 556. 下一個更大元素 III （整數和字符串互相轉化）

給定一個32位正整數 n，你需要找到最小的32位整數，其與 n 中存在的位數完全相同，並且其值大於n。如果不存在這樣的32位整數，則返回-1。示例 1: 輸入: 12 輸出: 21 示例 2: 輸入: 21 輸出: -1 char

2020-07-01 02:49:20

24小時熱門文章

最新文章

最新評論文章