文本分析圖片
假設是分析出html中的圖片路徑,使用爬蟲技術beautifulsoup4之後的獲取img標籤即可。但是從css中獲取即沒有標籤可言。所以使用原始的文本解析+正則表達式。
正則:
html:(?<=\(|\'|\")[^\(\)|\'|\"]+?(\.jpg|\.png|\.jpeg|\.gif|\.ico)[^\(\)|\'|\"]*?(?=\)|\'|\"|\\)
css:(?<=\(|\'|\")[^\(\)|\'|\"]+?(\.jpg|\.png|\.jpeg|\.gif|\.ico)[^\(\)|\'|\"]*?(?=\)|\'|\")
編寫程序時候把以上正則複製放入字符串中時,會把反斜槓也轉義了例如 :\(。會變成\\(。也是正確的
其中圖片後綴可自行增加比如主要加.bmp後綴的只要在(\.jpg|\.png|\.jpeg|\.gif|\.ico)加上即可添加規則爲: |\.bmp。結果顯示爲:(\.jpg|\.png|\.jpeg|\.gif|\.ico|.bmp)
這個正則匹配了大部分的情況,不過目前還是有一些漏洞。如果大家使用遇到匹配了非圖片路徑,或者有些圖片路徑不能匹配,請私信我大家學習學習。
如果大家對解析出來的圖片路徑不理解比如以//開頭、以/開頭,或者../或者./等知識的可以看我另一篇文章,裏面有詳細說明。