從css和html中分析出圖片路徑

文本分析圖片

假設是分析出html中的圖片路徑,使用爬蟲技術beautifulsoup4之後的獲取img標籤即可。但是從css中獲取即沒有標籤可言。所以使用原始的文本解析+正則表達式。

正則:

html:(?<=\(|\'|\")[^\(\)|\'|\"]+?(\.jpg|\.png|\.jpeg|\.gif|\.ico)[^\(\)|\'|\"]*?(?=\)|\'|\"|\\)

css:(?<=\(|\'|\")[^\(\)|\'|\"]+?(\.jpg|\.png|\.jpeg|\.gif|\.ico)[^\(\)|\'|\"]*?(?=\)|\'|\")

編寫程序時候把以上正則複製放入字符串中時,會把反斜槓也轉義了例如 :\(。會變成\\(。也是正確的

其中圖片後綴可自行增加比如主要加.bmp後綴的只要在(\.jpg|\.png|\.jpeg|\.gif|\.ico)加上即可添加規則爲:  |\.bmp。結果顯示爲:(\.jpg|\.png|\.jpeg|\.gif|\.ico|.bmp)

這個正則匹配了大部分的情況,不過目前還是有一些漏洞。如果大家使用遇到匹配了非圖片路徑,或者有些圖片路徑不能匹配,請私信我大家學習學習。

如果大家對解析出來的圖片路徑不理解比如以//開頭、以/開頭,或者../或者./等知識的可以看我另一篇文章,裏面有詳細說明。

跳轉鏈接

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章