一篇綜述：A Survey of Web Information Extraction Systems

原創

2020-02-21 12:31

第一位作者個人主頁 http://www.csie.ncu.edu.tw/~chia/

Chang, C.; Kayed, M.; Girgis, R. & Shaalan, K. A Survey of Web Information Extraction Systems Knowledge and Data Engineering, IEEE Transactions on, 2006, 18, 1411-1428.

Abstract—The Internet presents a huge amount of useful information which is usually formatted for its users, which makes it difficult to extract relevant data from various sources. Therefore, the availability of robust, flexible Information Extraction (IE) systems that transform the Web pages into program-friendly structures such as a relational database will become a great necessity. Although many
approaches for data extraction from Web pages have been developed, there has been limited effort to compare such tools. Unfortunately, in only a few cases can the results generated by distinct tools be directly compared since the addressed extraction tasks are different. This paper surveys the major Web data extraction approaches and compares them in three dimensions: the task domain, the automation degree, and the techniques used. The criteria of the first dimension explain why an IE system fails to handle some Web sites of particular structures. The criteria of the second dimension classify IE systems based on the techniques used. The criteria of the third dimension measure the degree of automation for IE systems. We believe these criteria provide qualitatively measures to evaluate various IE approaches.

發佈了29 篇原創文章 · 獲贊 5 · 訪問量 30萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

WEB系統身份校驗

在web系統中，身份校驗是常用的方式。登錄頁面，是爲用戶提供登錄的入口。但是，有的時候，我們使用ajax操作的時候，由於得不到正確的數據信息，而使頁面停留不能跳轉到登錄頁面。其實，http協議的請求頭可以幫我們輕鬆解決這個問題。在J

2024-02-07 13:55:31

健康碼—7天，支付寶“健康碼”怎樣從杭州跑遍全國！有人連續30小時沒閤眼

紅、黃、綠三色的健康碼，從2月9日在杭州餘杭區率先推出，之後杭州全市推廣，浙江11地市全部上線，到2月16日，國務院辦公廳電子政務辦指導支付寶加速研發全國統一的疫情防控健康信息碼，只用了7天時間。這份杭州向全國交出的優秀答卷，不僅僅是一個

雲棲號資訊小哥

2021-01-26 16:52:56

有啥不同？來看看Spring Boot 基於 JUnit 5 實現單元測試

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！簡介 Spring Boot 2.2.0 版本開始引入 JUnit 5 作爲單元測試默認庫，在 Spring Boot 2.2.0 版本之前

雲棲號資訊小哥

2020-08-04 10:52:50

軟件開發中原生開發與H5開發和混合開發的區別

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！目前市場上主流的APP分爲三種：原生APP、Web APP（即HTML5）和混合APP三種，相對應的定制開發就是原生開發、H5開發和混合

雲棲號資訊小哥

2020-07-30 16:34:52

適合 Python 入門的 8 款強大工具！

Python是一種開源的編程語言，可用於Web編程、數據科學、人工智能以及許多科學應用。學習Python可以讓程序員專注於解決問題，而不是語法。由於Python相對較小，且擁有各式各樣的工具，因此比Java和C++等語言更具優勢，同時豐富的

雲棲號資訊小編

2020-07-27 11:40:52

JavaScript 進入太空，真正成爲“火箭科學”

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！ SpaceX 公司發射的“龍飛船”（Dragon）2 號將 JavaScript 技術帶入了太空。飛船系統的用戶界面採用了 Chromium

雲棲號資訊小哥

2020-07-16 12:19:48

一分鐘學會物聯網開發服務配置導航菜單

雲棲號快速入門：【點擊查看更多雲產品快速入門】不知道怎麼入門？這裏分分鐘解決新手入門等基礎問題，可快速完成產品配置操作！在Web應用頁面支持配置不同模式的導航菜單，本文介紹如何配置應用的頁面導航菜單樣式和內容。操作步驟 1.在Web應用

2020-07-08 12:25:48

給ASP.NET MVC及WebApi添加路由優先級

這是一個對Asp.Net Mvc的一個很小的功能拓展，小項目可能不太需要這個功能，但有時候項目大了註冊的路由不生效時你應該要想到有可能是因爲路由順序的原因，這時這個路由優先級的功能有可能就會給你帶來便利。一、爲什麼需要路由優先級

2020-07-08 11:54:27

HTML5入門之常用標籤

html5標準網頁聲明 <!DOCTYPE html> 必要結構 <html > <head> <meta charset="UTF-8"> <title>Title</title> </head> <body>

2020-07-08 10:51:12

除了自動化訪問性測試，我還對構建的頁面做的六件事

本文翻譯自《Beyond automatic accessibility testing: 6 things I check on every website I build》。如有翻譯不當之處，請不吝指正。我剛對客戶端完成一次

风萧萧梦潇

2020-07-08 10:22:22

windows設置wifi優先級方法

公司很多wifi，有時候電腦自動連到信號不好的，導致網絡不暢。查了一下找到如下設置wifi連接優先級的方法。首先查看記住的wifi名稱 netsh wlan show profiles 然後查看網絡接口名稱 netsh wlan

2024-03-12 11:45:53

揭開華爲雲ADN提高網絡質量的祕密

本文分享自華爲雲社區《揭開華爲雲ADN提高網絡質量的祕密》，作者：HuaweiCloudDeveloper。互聯網的QoS故障與解決思路互聯網自1968年起源以來，已經發展了半個多世紀。互聯網僅從中文字面意思，可以簡單理解爲相互鏈接的

2024-02-19 23:16:10

爲什麼我們青睞 PHP？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！在 Hologram ，我們後端服務的搭建主要使用了兩種編程語言：PHP 和 Python。其中，PHP 組件最接近用戶層，它提供了所有服

雲棲號資訊小哥

2020-07-29 12:49:48

(轉)Oracle RMAN快速入門指南

前言這篇文章主要介紹RMAN的常用方法，其中包含了作者一些自己的經驗，裏面的實驗也基本全在WIN 2K和ORACLE 8.1.6環境下測試成功（因爲這個環境比較容易實現）。本文借鑑了網上一些高手的相關文章，希望大俠們不要見怪，此處一併

2020-07-08 11:16:53

通過trigger防止指定用戶drop

sqlplus /nolog conn /as sysdba; SQL> create or replace trigger no_droping_for_you before 2 drop on database 3 begin

2020-07-08 10:28:07

24小時熱門文章

最新文章

最新評論文章