將HTML去標籤,留下正文 同時留下標籤去除後的所有空白
位置信息。留下的正文稱爲Ctext
行塊:以Ctext中的行號爲軸取其周圍k行,合起來稱爲一個
行塊Cblock。
行塊長度:一個Cblock去掉其中所有空白符後的字符總數
稱爲該行塊的長度。
行塊分佈函數:
以Ctext每行爲軸,共有LinesNum(Ctext)-K個Cblock,做出以
[1,LinesNum(Ctext)-K]爲橫軸,以其各自的行塊長度爲縱軸
的分佈函數。
分佈函數圖中正確文本含有最值,且往往含有一個鄹升點
和一個驟降點
這樣就轉化爲求驟升點和驟降點
求正文區域所在的起始行塊號和終止行塊號 需要滿足下面四
個條件
驟升點必須超過某一閥值
緊隨驟升點的行塊長度不能爲0
驟降點及其尾隨的行塊長度爲0,保證正文結束。
保證此區域是取到行塊最大值的區域