爬虫智能解析浅谈

原創

2020-06-09 00:43

智能解析的深度学习切入方向
1. 标题，一般它的字号是比较大的，而且长度不长，位置一般都在页面上方，而且大部分情况下它应该和 title 标签里的内容是一致的
2. 正文，它的内容一般是最多的，而且会包含多个段落 p 或者图片 img 标签，另外它的宽度一般可能会占用到页面的三分之二区域，并且密度（字数除以标签数量）会比较大。
3. 时间，不同语言的页面可能不同，但时间的格式是有限的，如 2019-02-20 或者 2019/02/20 等等，也有的可能是美式的记法，顺序不同，这些也有特定的模式可以识别。
4. 广告,它的标签一般可能会带有 ads 这样的字样，另外大多数可能会处于文章底部、页面侧栏，并可能包含一些特定的外链内容。
5. 区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征，另外很多情况下还需要借助于视觉的特征
6. 其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来，再经过大量的数据训练，是可以得到一个非常不错的效果的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

工作中常用的liunx 命令

1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:808

2020-06-20 05:21:14

Python多线程爬虫：爬取红盾网

import requests import time import csv import pymongo from lxml import etree from multiprocessing import Pool """ 本項目

2020-06-20 03:12:26

Python爬虫：爬取app短视频

""" 夜神模擬器+fiddler+Python 爬取app小視頻下載fiddler 配置網絡與端口下載夜神配置網絡下載認證下載app 最後抓包 """ class DouYinApp(): #頁面請求

2020-06-20 03:12:26

爬虫实战（二）猫眼电影动态数据爬取

2020-02-24 00:31:00

爬虫实战（一）猫眼电影基础数据爬取

2020-02-24 00:31:00

Python爬虫：爬取vip视频

2020-02-21 00:05:47

工作中常用的liunx 命令

1.批量殺死包含某個程序或端口的進程PID(經常碰到端口占用的情況) lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:808

2020-06-20 05:21:14

Python多线程爬虫：爬取红盾网

import requests import time import csv import pymongo from lxml import etree from multiprocessing import Pool """ 本項目

2020-06-20 03:12:26

Python爬虫：爬取app短视频

""" 夜神模擬器+fiddler+Python 爬取app小視頻下載fiddler 配置網絡與端口下載夜神配置網絡下載認證下載app 最後抓包 """ class DouYinApp(): #頁面請求

2020-06-20 03:12:26

爬虫实战（二）猫眼电影动态数据爬取

2020-02-24 00:31:00

爬虫实战（一）猫眼电影基础数据爬取

2020-02-24 00:31:00

Python爬虫：爬取vip视频

2020-02-21 00:05:47

Python爬虫：爬取淮安出租房源信息56页1111套

2020-02-21 00:05:47

Python爬虫：爬取抖音app短视频

2019-10-25 16:02:23

Python爬虫：爬取链家淮安经纪人信息

2019-08-09 15:41:42

24小時熱門文章

最新文章

最新評論文章