與網頁內容抽取相關的文獻

網頁內容抽取是指從網頁中抽取大塊內容。例如新聞正文抽取等。以下爲一些相關的文獻。

[1]    Ziegler, C. & Skubacz, M. Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features WI '07: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence, IEEE Computer Society, 2007, 242-249
[2]    Reis, D. C.; Golgher, P. B.; Silva, A. S. & Laender, A. F. Automatic web news extraction using tree edit distance WWW '04: Proceedings of the 13th international conference on World Wide Web, ACM, 2004, 502-511
[3]    Gupta, S.; Kaiser, G.; Neistadt, D. & Grimm, P. DOM-based content extraction of HTML documents WWW '03: Proceedings of the 12th international conference on World Wide Web, ACM, 2003, 207-214
[4]    Gupta, S.; Kaiser, G. E.; Grimm, P.; Chiang, M. F. & Starren, J. Automating Content Extraction of HTML Documents World Wide Web, Kluwer Academic Publishers, 2005, 8, 179-224
[5]    Gupta, S.; Kaiser, G. & Stolfo, S. Extracting context to improve accuracy for HTML content extraction WWW '05: Special interest tracks and posters of the 14th international conference on World Wide Web, ACM, 2005, 1114-1115
[6]    Gupta, S.; Becker, H.; Kaiser, G. & Stolfo, S. Verifying genre-based clustering approach to content extraction WWW '06: Proceedings of the 15th international conference on World Wide Web, ACM, 2006, 875-876
[7]    Gibson, J.; Wellner, B. & Lubar, S. Adaptive web-page content identification WIDM '07: Proceedings of the 9th annual ACM international workshop on Web information and data management, ACM, 2007, 105-112
[8]    Lin, S. & Ho, J. Discovering informative content blocks from Web documents KDD '02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2002, 588-593
[9]    Debnath, S.; Mitra, P. & Giles, C. L. Automatic extraction of informative blocks from webpages SAC '05: Proceedings of the 2005 ACM symposium on Applied computing, ACM, 2005, 1722-1726
[10]    王琦, 唐世渭, 楊冬青, 王騰蛟. 基於DOM 的網頁主題信息自動提取. 計算機研究與發展, 2004年第41卷10期.
[11]    胡國平, 張巍, 王仁華. 基於雙層決策的新聞網頁正文精確抽取. 中文信息學報, 2006年第20卷06期.
[12]    孫承傑, 關毅. 基於統計的網頁正文信息抽取方法的研究. 中文信息學報, 2004年第18卷05期.
[13]    黃文蓓, 楊靜, 顧君忠. 基於分塊的網頁正文信息提取算法研究. 計算機應用, 2007 年第27卷.
[14]    趙欣欣, 索紅光, 劉玉樹. 基於標記窗的網頁正文信息提取方法. 計算機應用研究, 2007年第24卷03期.
[15]    趙文, 唐建雄, 高慶鋒. 基於統計的中文網頁正文抽取的研究. 電腦知識與技術, 2008年第1卷1期.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章