基於行塊分佈函數的通用網頁正文抽取算法初步認識

方法核心依據有兩點:正文區的密度、行塊的長度

將HTML去標籤,留下正文 同時留下標籤去除後的所有空白
位置信息。留下的正文稱爲Ctext

行塊:以Ctext中的行號爲軸取其周圍k行,合起來稱爲一個
行塊Cblock。

行塊長度:一個Cblock去掉其中所有空白符後的字符總數
稱爲該行塊的長度。

行塊分佈函數:
以Ctext每行爲軸,共有LinesNum(Ctext)-K個Cblock,做出以
[1,LinesNum(Ctext)-K]爲橫軸,以其各自的行塊長度爲縱軸
的分佈函數。

分佈函數圖中正確文本含有最值,且往往含有一個鄹升點

和一個驟降點



這樣就轉化爲求驟升點和驟降點

求正文區域所在的起始行塊號和終止行塊號 需要滿足下面四
個條件
驟升點必須超過某一閥值
緊隨驟升點的行塊長度不能爲0
驟降點及其尾隨的行塊長度爲0,保證正文結束。
保證此區域是取到行塊最大值的區域


發佈了18 篇原創文章 · 獲贊 2 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章