如何讓搜索引擎抓取AJAX內容？

原創

Seven-wz

2018-09-01 02:59

原文：http://www.ruanyifeng.com/blog/2013/07/how_to_make_search_engines_find_ajax_content.html

越來越多的網站，開始採用"單頁面結構"（Single-page application）。

整個網站只有一張網頁，採用Ajax技術，根據用戶的輸入，加載不同的內容。

這種做法的好處是用戶體驗好、節省流量，缺點是AJAX內容無法被搜索引擎抓取。舉例來說，你有一個網站。


　　http://example.com

用戶通過井號結構的URL，看到不同的內容。


　　http://example.com#1
　　http://example.com#2
　　http://example.com#3

但是，搜索引擎只抓取example.com，不會理會井號，因此也就無法索引內容。

爲了解決這個問題，Google提出了"井號+感嘆號"的結構。


　　http://example.com#!1

當Google發現上面這樣的URL，就自動抓取另一個網址：


　　http://example.com/?_escaped_fragment_=1

只要你把AJAX內容放在這個網址，Google就會收錄。但是問題是，"井號+感嘆號"非常難看且煩瑣。Twitter曾經採用這種結構，它把


　　http://twitter.com/ruanyf

改成


　　http://twitter.com/#!/ruanyf

結果用戶抱怨連連，只用了半年就廢除了。

那麼，有沒有什麼方法，可以在保持比較直觀的URL的同時，還讓搜索引擎能夠抓取AJAX內容？

我一直以爲沒有辦法做到，直到前兩天看到了Discourse創始人之一的Robin Ward的解決方法，不禁拍案叫絕。

Discourse是一個論壇程序，嚴重依賴Ajax，但是又必須讓Google收錄內容。它的解決方法就是放棄井號結構，採用 History API。

所謂 History API，指的是不刷新頁面的情況下，改變瀏覽器地址欄顯示的URL(準確說，是改變網頁的當前狀態)。這裏有一個例子，你點擊上方的按鈕，開始播放音樂。然後，再點擊下面的鏈接，看看發生了什麼事？

地址欄的URL變了，但是音樂播放沒有中斷！

History API 的詳細介紹，超出這篇文章的範圍。這裏只簡單說，它的作用就是在瀏覽器的History對象中，添加一條記錄。


　　window.history.pushState(state object, title, url);

上面這行命令，可以讓地址欄出現新的URL。History對象的pushState方法接受三個參數，新的URL就是第三個參數，前兩個參數都可以是null。


　　window.history.pushState(null, null, newURL);

目前，各大瀏覽器都支持這個方法：Chrome（26.0+），Firefox（20.0+），IE（10.0+），Safari（5.1+），Opera（12.1+）。

下面就是Robin Ward的方法。

首先，用History API替代井號結構，讓每個井號都變成正常路徑的URL，這樣搜索引擎就會抓取每一個網頁。


　　example.com/1
　　example.com/2
　　example.com/3

然後，定義一個JavaScript函數，處理Ajax部分，根據網址抓取內容（假定使用jQuery）。


　　function anchorClick(link) {
　　　　var linkSplit = link.split('/').pop();
　　　　$.get('api/' + linkSplit, function(data) {
　　　　　　$('#content').html(data);
　　　　});
　　}

再定義鼠標的click事件。


　　$('#container').on('click', 'a', function(e) {
　　　　window.history.pushState(null, null, $(this).attr('href'));
　　　　anchorClick($(this).attr('href'));
　　　　e.preventDefault();
　　});

還要考慮到用戶點擊瀏覽器的"前進 / 後退"按鈕。這時會觸發History對象的popstate事件。


　　window.addEventListener('popstate', function(e) {     
　　　　anchorClick(location.pathname); 	
 　　});

定義完上面三段代碼，就能在不刷新頁面的情況下，顯示正常路徑URL和AJAX內容。

最後，設置服務器端。

因爲不使用井號結構，每個URL都是一個不同的請求。所以，要求服務器端對所有這些請求，都返回如下結構的網頁，防止出現404錯誤。


　　<html>
　　　　<body>
　　　　　　<section id='container'></section>
　　　　　　<noscript>
　　　　　　　　... ...
 　　　　　　</noscript>
　　　　</body>
　　</html>

仔細看上面這段代碼，你會發現有一個noscript標籤，這就是奧妙所在。

我們把所有要讓搜索引擎收錄的內容，都放在noscript標籤之中。這樣的話，用戶依然可以執行AJAX操作，不用刷新頁面，但是搜索引擎會收錄每個網頁的主要內容！

===================================

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何讓搜索引擎抓取AJAX內容？

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

再談23種設計模式（3）：行爲型模式（學習筆記）

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

C# foreach的實現 foreach(new {Name=""} s in collection)

Silverlight Blur特效 Dropshadow特效無效?

關於Javascript中的三目運算

ASP.NET XML查找之 XPath的封裝[ 二 ]

Javascript、css壓縮工具(支持批量) 更新於20110212

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結