爬蟲智能解析淺談

  1. 智能解析的深度學習切入方向
    1. 標題,一般它的字號是比較大的,而且長度不長,位置一般都在頁面上方,而且大部分情況下它應該和 title 標籤裏的內容是一致的

    2. 正文,它的內容一般是最多的,而且會包含多個段落 p 或者圖片 img 標籤,另外它的寬度一般可能會佔用到頁面的三分之二區域,並且密度(字數除以標籤數量)會比較大。

    3. 時間,不同語言的頁面可能不同,但時間的格式是有限的,如 2019-02-20 或者 2019/02/20 等等,也有的可能是美式的記法,順序不同,這些也有特定的模式可以識別。

    4. 廣告,它的標籤一般可能會帶有 ads 這樣的字樣,另外大多數可能會處於文章底部、頁面側欄,並可能包含一些特定的外鏈內容。

    5. 區塊位置、區塊大小、區塊標籤、區塊內容、區塊疏密度等等多種特徵,另外很多情況下還需要藉助於視覺的特徵

    6. 其實結合了算法計算、視覺處理、自然語言處理等各個方面的內容。如果能把這些特徵綜合運用起來,再經過大量的數據訓練,是可以得到一個非常不錯的效果的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章