爬蟲智能解析淺談

原創

2020-06-09 00:43

智能解析的深度學習切入方向
1. 標題，一般它的字號是比較大的，而且長度不長，位置一般都在頁面上方，而且大部分情況下它應該和 title 標籤裏的內容是一致的
2. 正文，它的內容一般是最多的，而且會包含多個段落 p 或者圖片 img 標籤，另外它的寬度一般可能會佔用到頁面的三分之二區域，並且密度（字數除以標籤數量）會比較大。
3. 時間，不同語言的頁面可能不同，但時間的格式是有限的，如 2019-02-20 或者 2019/02/20 等等，也有的可能是美式的記法，順序不同，這些也有特定的模式可以識別。
4. 廣告,它的標籤一般可能會帶有 ads 這樣的字樣，另外大多數可能會處於文章底部、頁面側欄，並可能包含一些特定的外鏈內容。
5. 區塊位置、區塊大小、區塊標籤、區塊內容、區塊疏密度等等多種特徵，另外很多情況下還需要藉助於視覺的特徵
6. 其實結合了算法計算、視覺處理、自然語言處理等各個方面的內容。如果能把這些特徵綜合運用起來，再經過大量的數據訓練，是可以得到一個非常不錯的效果的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

工作中常用的liunx 命令

1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:808

2020-06-20 05:21:14

Python多線程爬蟲：爬取紅盾網

import requests import time import csv import pymongo from lxml import etree from multiprocessing import Pool """ 本項目

2020-06-20 03:12:26

Python爬蟲：爬取app短視頻

""" 夜神模擬器+fiddler+Python 爬取app小視頻下載fiddler 配置網絡與端口下載夜神配置網絡下載認證下載app 最後抓包 """ class DouYinApp(): #頁面請求

2020-06-20 03:12:26

爬蟲實戰（二）貓眼電影動態數據爬取

2020-02-24 00:31:00

爬蟲實戰（一）貓眼電影基礎數據爬取

2020-02-24 00:31:00

Python爬蟲：爬取vip視頻

2020-02-21 00:05:47

工作中常用的liunx 命令

1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:808

2020-06-20 05:21:14

Python多線程爬蟲：爬取紅盾網

import requests import time import csv import pymongo from lxml import etree from multiprocessing import Pool """ 本項目

2020-06-20 03:12:26

Python爬蟲：爬取app短視頻

""" 夜神模擬器+fiddler+Python 爬取app小視頻下載fiddler 配置網絡與端口下載夜神配置網絡下載認證下載app 最後抓包 """ class DouYinApp(): #頁面請求

2020-06-20 03:12:26

爬蟲實戰（二）貓眼電影動態數據爬取

2020-02-24 00:31:00

爬蟲實戰（一）貓眼電影基礎數據爬取

2020-02-24 00:31:00

Python爬蟲：爬取vip視頻

2020-02-21 00:05:47

Python爬蟲：爬取淮安出租房源信息56頁1111套

2020-02-21 00:05:47

Python爬蟲：爬取抖音app短視頻

2019-10-25 16:02:23

Python爬蟲：爬取鏈家淮安經紀人信息

2019-08-09 15:41:42

24小時熱門文章

最新文章

最新評論文章