html解析模型

轉載:http://blog.csdn.net/dlmu2001/article/details/6001029

  

   如上是html解析模型圖,如圖所示,html解析模型的輸入是unicode字符流,經過tokenization和tree construction兩個階段,輸出Document對象。

一般情況下,Tokenization階段處理的數據來自網絡,但它也可以來自於運行在用戶代理上的腳本,比如,使用document.wrinte()這樣的API。

Tokenizer和tree construction狀態都只有一套,但是tree construction是可重入的,tree construction階段在處理一個token的時候,tokenizer可能得以繼續,導致在第一個token沒有完成之前,其它的token被釋放並處理。

<script>

Document.write(‘<p>’);

</script>

比如,如上的代碼,tree construction階段在處理”script”結束標籤的時候,會被要求處理”p”起始標籤。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章