基於行塊分佈函數的通用網頁正文抽取算法初步認識

原創

2020-02-22 06:59

方法核心依據有兩點：正文區的密度、行塊的長度

將HTML去標籤，留下正文同時留下標籤去除後的所有空白
位置信息。留下的正文稱爲Ctext

行塊：以Ctext中的行號爲軸取其周圍k行，合起來稱爲一個
行塊Cblock。

行塊長度：一個Cblock去掉其中所有空白符後的字符總數
稱爲該行塊的長度。

行塊分佈函數：
以Ctext每行爲軸，共有LinesNum(Ctext)-K個Cblock，做出以
[1,LinesNum(Ctext)-K]爲橫軸，以其各自的行塊長度爲縱軸
的分佈函數。

分佈函數圖中正確文本含有最值，且往往含有一個鄹升點

和一個驟降點

這樣就轉化爲求驟升點和驟降點

求正文區域所在的起始行塊號和終止行塊號需要滿足下面四
個條件
驟升點必須超過某一閥值
緊隨驟升點的行塊長度不能爲0
驟降點及其尾隨的行塊長度爲0，保證正文結束。
保證此區域是取到行塊最大值的區域

發佈了18 篇原創文章 · 獲贊 2 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

http發送jsonn報文get/post請求

文章目錄一、第1種方式1. 因依賴2. 工具類+測試方法3. 服務端接收二、第2種方式三、第3種方式3.1. 引依賴3.2. 工具類+測試3.3. 服務端代碼一、第1種方式 1. 因依賴 <!-- https://mvnr

2020-06-27 06:09:34

發送http和https請求工具類 Json封裝數據

在一些業務中我們可要調其他的接口(第三方的接口) 這樣就用到我接下來用到的工具類。用這個類需要引一下jar包的座標 <dependency> <groupId>org.jsoup</grou

2020-06-27 05:13:17

【Android基礎知識】Apache HttpClient的基本使用

使用Apache HttpClient 使用get和post方式向服務器發送請求請求代碼 public class HttpClientThread extends Thread { private String url; priv

2020-07-06 20:32:27

【網絡爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

一、寫在前面上篇文章以網易微博爬蟲爲例，給出了一個很簡單的微博爬蟲的爬取過程，大概說明了網絡爬蟲其實也就這麼回事，或許初次看到這個例子覺得有些複雜，不過沒有關係，上篇文章給的例子只是讓大家對爬蟲過程有所瞭解。接下來的系列

2020-07-03 11:41:52

(HttpClient技術)Httpclient如何設置代理IP和端口(Port)

前言 Httpclient 3.X和Httpclient 4.X如何設置代理呢？現在的網絡比較成熟，各種大型網站爲了防止別人惡意攻擊自己的網站，都會對訪問者的IP進行限制，所以爲了能夠多次訪問一個網站，Httpclient在使用過

蝴蝶效应-虎

2020-07-01 22:13:55

Angular&Http聯調

一.Http易忽漏知識點 1.multipart/form-data與x-www-form-urlencoded區別 multipart/form-data：既可以上傳文件等二進制數據，也可以上傳表單鍵值對，只是最後會轉化爲一條

2020-06-30 14:44:59

HttpClient 4.3教程-前言

前言 Http協議應該是互聯網中最重要的協議。持續增長的web服務、可聯網的家用電器等都在繼承並拓展着Http協議，向着瀏覽器之外的方向發展。雖然jdk中的java.net包中提供了一些基本的方法，通過http協議來訪問網絡資源，但是大

2020-06-29 03:39:40

HttpClientUtil 封裝 apache.httpcomponents 4.5.8

HttpClientUtil 封裝 apache.httpcomponents 4.5.8 注意：本篇博客風格（不多比比就是擼代碼!!!） GitHub: link. 歡迎star 一、maven依賴 <dep

2020-06-27 20:06:21

循序漸進學HTTPClient

目前 HttpClient 版本是在 2005.10.11 發佈的 3.0 RC4 。 1．讀取網頁(HTTP/HTTPS)內容下面是我們給出的一個簡單的例子用來訪問某個頁面 /* * Created on 2003-12-14 by

2020-06-27 17:41:51

Httpclient4.0 學習之一：環境準備

覺得現在必須重視HTTP協議了，未來是瀏覽器的天下，而高層協議，務必被人人們反覆更改，以適應靈活的需求。無論是PC，還是移動終端，傳輸的協議

2020-06-27 17:27:38

Httpclient4.0 學習之二：概念和術語

HTTP消息: 包括兩類：請求(Request) ; 迴應(Response)消息的組成: 消息頭(Header) ; 消息實體 (En

2020-06-27 17:27:38

Android HttpClient用法

原文地址：http://liangruijun.blog.51cto.com/3061169/803097 在Android開發中，Android SDK附帶了Apache的HttpClient，它是一個完善的客戶端。它提供了對H

2020-06-27 05:24:18

httpclient請求傳參xml，添加後數據亂碼

使用的httpclient，傳參需要傳xml，剛開始調用返回正常，但是客戶系統上顯式的是亂碼，然後查閱資料，經過領導點播最終解決。剛開始使用的soap UI測試將請求頭修改爲text/xml；charset=GBK測試成功，也不是亂碼，

2020-06-24 21:29:55

okhttp的應用詳解與源碼解析--android網絡請求框架發展史

乘5G之勢，借物聯網之風，Android未來亦可期，Android優勢在於開放，手機、平板、車載設備、智能家居等都是Android的舞臺，Google不倒，Android不滅，本專欄的同步視頻教程已經發布到csdn學院，地址如下

2020-06-23 04:48:32

HttpClient發送get/post請求

1.需要的maven依賴：  <dependency> <groupId>org.apache.httpcomponents</groupId>

2020-06-23 03:36:50

24小時熱門文章

最新文章

最新評論文章