Google高手必經之路(zz)

Google(www.Google.com)是一個搜索引擎,由兩個斯坦福大學博士生Larry Page與Sergey Brin於1998年9月發明,Google Inc. 於1999年創立。2000年7月份,Google替代Inktomi成爲Yahoo公司的搜索引擎,同年9月份,Google成爲中國網易公司的搜索引擎。98年至今,Google已經獲得30多項業界大獎。到Google的新聞中心(http://www.Google.com/press/index.html),你可以找到關於一切關於Google的歷史和新聞資料。 

搜索入門 

第一次進入Google,它會根據你的操作系統,確定語言界面。需要提醒的是,Google是通過cookie來存儲頁面設定的,所以,如果你的系統禁用cookie,就無法對Google界面進行個人設定了。 

Google的首頁很清爽,LOGO下面,排列了四大功能模塊:網站、圖像、新聞組和目錄服務。默認是網站搜索。現在進行第一次搜索實踐,假定你是個搜索新手,想要了解一下搜索引擎的來龍去脈和搜索技巧。在搜索框內輸入一個關鍵字“搜索引擎”, 選中“搜索中文(簡體)網頁”選項,然後點擊下面的“Google搜索”按鈕(或者直接回車),結果就出來了。 

注意:文章中搜索語法外面的引號僅起引用作用,不能帶入搜索欄內。 

初階搜索 

上例中,單個關鍵字“搜索引擎”,搜索得的信息浩如煙海,而且絕大部分並不符合自己的要求,怎麼辦呢?我們需要進一步縮小搜索範圍和結果。 

1,搜索結果要求包含兩個及兩個以上關鍵字 

一般搜索引擎需要在多個關鍵字之間加上“ ”,而Google無需用明文的“ ”來表示邏輯“與”操作,只要空格就可以了。現在,我們需要了解一下搜索引擎的歷史,因此期望搜得的網頁上有“搜索引擎”和“歷史”兩個關鍵字。 

示例:搜索所有包含關鍵詞“搜索引擎”和“歷史”的中文網頁 
搜索:“搜索引擎 歷史” 
結果:已搜索有關搜索引擎 歷史的中文(簡體)網頁。 共約有78,600項查詢結果,這是第1-10項 。 搜索用時0.36秒。 

用了兩個關鍵字,查詢結果已經從70多萬項減少到7萬多項。但查看一下搜索結果,發現前列的絕大部分結果還是不符合要求,大部分網頁涉及的“歷史”,並不是我們所需要的“搜索引擎的歷史”。 怎麼辦呢?刪除與搜索引擎不相關的“歷史”。我們發現,這部分無用的資訊,總是和“文化”這個詞相關的,另外一些常見詞是“中國歷史”、“世界歷史”、“歷史書籍”等。 

2,搜索結果要求不包含某些特定信息 

Google用減號“-”表示邏輯“非”操作。“A –B”表示搜索包含A但沒有B的網頁。 

示例:搜索所有包含“搜索引擎”和“歷史”但不含“文化”、“中國歷史”和“世界歷史”的中文網頁 
搜索:“搜索引擎 歷史 -文化 -中國歷史 -世界歷史” 
結果:已搜索有關搜索引擎 歷史 -文化 -中國歷史 -世界歷史的中文(簡體)網頁。 共約有36,800項查詢結果,這是第1-10項 。 搜索用時0.22秒。 

我們看到,通過去掉不相關信息,搜索結果又減少了將近一半。第一個搜索結果是: 

搜索引擎直通車≡搜索引擎發展歷史 
搜索引擎直通車, ... 搜索引擎專業介紹站點. ... 
www.se-express.com/about/about.htm - 14k - 網頁快照 - 類似網頁 

非常符合搜索要求。另外,第八項搜索結果: 

463搜索王 
本站檢索 整個網站 在此輸入關鍵詞. 你的當前 
位置:首頁 >> Internet搜索手冊 >> 搜索引擎的歷史. ... 
www.cnco.net/search/history.htm - 21k - 網頁快照 - 類似網頁 

也符合搜索要求。但是,10個結果只有兩個符合要求,未免太少了點。不過,在沒有更好的策略之前,不妨先點開一個結果看看。點開se-express.com的這個名爲“搜索引擎發展歷史”的網頁,我們發現,搜索引擎的歷史,是與互聯網早期的文件檢索工具“Archie”息息相關的。此外,搜索引擎似乎有個核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,使搜索引擎深入人心的是“Yahoo”。瞭解了這些信息,我們就可以進一步的讓搜索結果符合要求了。 

注意:這裏的“ ”和“-”號,是英文字符,而不是中文字符的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。比如“搜索引擎 - 文化”,搜索引擎將視爲關鍵字爲“搜索引擎”和“文化”的邏輯“與”操作,中間的“-”被忽略。 

6.3,搜索結果至少包含多個關鍵字中的任意一個。 

Google用大寫的“OR”表示邏輯“或”操作。搜索“A OR B”,意思就是說,搜索的網頁中,要麼有A,要麼有B,要麼同時有A和B。在上例中,我們希望搜索結果中最好含有“archie”、“lycos”、“蜘蛛”等關鍵字中的一個或者幾個,這樣可以進一步的精簡搜索結果。 

示例:搜索如下網頁,要求必須含有“搜索引擎”和“歷史”,沒有“文化”,可以含有以下關鍵字中人任何一個或者多個:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。 
搜索:“搜索引擎 歷史 archie OR 蜘蛛 OR lycos OR yahoo -文化” 
結果:已搜索有關搜索引擎 歷史 archie OR 蜘蛛 OR lycos OR yahoo -文化的中文(簡體)網頁。 共約有8,400項查詢結果,這是第1-10項 。 搜索用時0.16秒。 

我們看到,搜索結果縮小到8千多項,前20項結果中,大部分都符合搜索要求。如果你想了解一下解搜索引擎的歷史發展,就不妨研究一下現在搜索到的結果吧。 

注意:“與”操作必須用大寫的“OR”,而不是小寫的“or”。 

在上面的例子中,我介紹了搜索引擎最基本的語法“與”“非”和“或”,這三種搜索語法Google分別用“ ”(空格)、“-”和“OR”表示。順着上例的思路,你也可以瞭解到如何縮小搜索範圍,迅速找到目的資訊的一般方法:目標信息一定含有的關鍵字(用“ ”連起來),目標信息不能含有的關鍵字(用“-”去掉),目標信息可能含有的關鍵字(用“OR”連起來)。 

7,雜項語法 

7.1,通配符問題 

很多搜索引擎支持通配符號,如“*”代表一連串字符,“?”代表單個字符等。Google對通配符支持有限。它目前只可以用“*”來替代單個字符,而且包含“*”必須用""引起來。比如,“"以*治國"”,表示搜索第一個爲“以”,末兩個爲“治國”的四字短語,中間的“*”可以爲任何字符。 

7.2,關鍵字的字母大小寫 

Google對英文字符大小寫不敏感,“GOD”和“god”搜索的結果是一樣的。 

7.3,搜索整個短語或者句子 

Google的關鍵字可以是單詞(中間沒有空格),也可以是短語(中間有空格)。但是,用短語做關鍵字,必須加英文引號,否則空格會被當作“與”操作符。 

示例:搜索關於第一次世界大戰的英文信息。 
搜索:“"world war I"” 
結果:已向英特網搜索"world war i". 共約有937,000項查詢結果,這是第1-10項 。 搜索用時0.06秒。 

7.4,搜索引擎忽略的字符以及強制搜索 

Google對一些網路上出現頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符號如“*”、“.”等,作忽略處理。 

示例:搜索關於www起源的一些歷史資料。 
搜索:“www的歷史 internet” 
結果:以下的字詞因爲使用過於頻繁,沒有被列入搜索範圍: www 的. 已搜索有關www的歷史 internet的中文(簡體)網頁。 共約有75,100項查詢結果,這是第1-10項 。 搜索用時0.22秒。 

我們看到,搜索“www的歷史 internet”,但搜索引擎把“www”和“的”都省略了。於是上述搜索只搜索了“歷史”和“internet”。這顯然不符合要求。這裏我順便說一點搜索引擎分詞的知識。當我們在搜索“www的歷史”的時候,搜索引擎實際上把這個短語分成三部分,“www”、“的”和“歷史”分別來檢索,這就是搜索引擎的分詞。所以儘管你輸入了連續的“www的歷史”,但搜索引擎還是把這個短語當成三個關鍵字分別檢索。 

如果要對忽略的關鍵字進行強制搜索,則需要在該關鍵字前加上明文的“+”號。 
搜索:“+www +的歷史 internet” 
結果:已搜索有關+www +的歷史 internet的中文(簡體)網頁。 共約有25,000項查詢結果,這是第1-10項 。 搜索用時0.05秒。 

另一個強制搜索的方法是把上述的關鍵字用英文雙引號引起來。在上例“”world war I””中,“I”其實也是忽略詞,但因爲被英文雙引號引起來,搜索引擎就強制搜索這一特定短語。 

搜索:“"www的歷史" internet” 
結果:已搜索有關"www的歷史" internet的中文(簡體)網頁。 共約有7項查詢結果,這是第1-6項 。 搜索用時0.26秒。 

我們看到,這一搜索事實上把“www的歷史”作爲完整的一個關鍵字。顯然,包含這樣一個特定短語的網頁並不是很多,不過,每一項都很符合要求。 

注意:大部分常用英文符號(如問號,句號,逗號等)無法成爲搜索關鍵字,加強制也不行。 

8,進階搜索 

上面已經探討了Google的一些最基礎搜索語法。通常而言,這些簡單的搜索語法已經能解決絕大部分問題了。不過,如果想更迅速更貼切找到需要的信息,你還需要了解更多的東西。 

8.1,對搜索的網站進行限制 

“site”表示搜索結果侷限於某個具體網站或者網站頻道,如“www.sina.com.cn”、“edu.sina.com.cn”,或者是某個域名,如“com.cn”、“com”等等。如果是要排除某網站或者域名範圍內的頁面,只需用“-網站/域名”。 

示例:上著名IT門戶網站ZDNET和CNET搜索一下關於搜索引擎技巧方面的資訊。 
搜索:“"search engine" tips site:www.zdnet.com OR site:www.cnet.com” 
結果:已在www.zdnet.com內搜索有關"search engine" tips OR site:www.cnet.com的網頁。 共約有1,040項查詢結果,這是第1-10項 。 搜索用時0.09秒。 

注意,在這裏Google有個小BUG。“已在www.zdnet.com內搜索…”,其實應該表述成“已在www.zdnet.com和www.cnet.com內搜索…”。 

示例:搜索新浪科技頻道中關於搜索引擎技巧的信息。 
搜索:“搜索引擎 技巧 site:tech.sina.com.cn” 
結果:已在tech.sina.com.cn搜索有關搜索引擎 技巧 的中文(簡體)網頁。 共約有163項查詢結果,這是第1-10項 。 搜索用時0.07秒。 

注意:site後的冒號爲英文字符,而且,冒號後不能有空格,否則,“site:”將被作爲一個搜索的關鍵字。此外,網站域名不能有“http://”前綴,也不能有任何“/”的目錄後綴;網站頻道則只侷限於“頻道名.域名”方式,而不能是“域名/頻道名”方式。 

8.2,在某一類文件中查找信息 

“filetype:”是Google開發的非常強大實用的一個搜索語法。也就是說,Google不僅能搜索一般的文字頁面,還能對某些二進制文檔進行檢索。目前,Google已經能檢索微軟的Office文檔如.xls、.ppt、.doc,.rtf,WordPerfect文檔,Lotus1-2-3文檔,Adobe的.pdf文檔,ShockWave的.swf文檔(Flash動畫)等。其中最實用的文檔搜索是PDF搜索。PDF是ADOBE公司開發的電子文檔格式,現在已經成爲互聯網的電子化出版標準。目前Google檢索的PDF文檔大約有2500萬左右,大約佔所有索引的二進制文檔數量的80%。PDF文檔通常是一些圖文並茂的綜合性文檔,提供的資訊一般比較集中全面。 

示例:搜索幾個資產負債表的Office文檔。 
搜索:“資產負債表 filetype:doc OR filetype:xls OR filetype:ppt” 
結果:已搜索有關資產負債表 filetype:doc OR filetype:xls OR filetype:ppt的中文(簡體)網頁。 共約有481項查詢結果,這是第1-10項 。 搜索用時0.04秒。 

注意,下載的Office文件可能含有宏病毒,謹慎操作。 

示例:搜索一些關於搜索引擎知識和技巧方面的PDF文檔 
搜索:“"search engine" tips OR tutorial filetype:pdf” 
結果:已向英特網搜索"search engine" tips OR tutorial filetype:pdf. 共約有12,600項查詢結果,這是第1-10項 。 搜索用時0.22秒。 

我們來看其中的一個結果: 

[PDF]Search Engines Tips 
文檔類型: PDF/Adobe Acrobat - HTML 版 
... http://www.google.com/press/zeitgeist.html See what people are searching on at Google.com 
* Search Engine Watch http://searchenginewatch.com/ Some free tips ... 
www.allvertical.com/PromoKits/SearchEngineTips.pdf - 類似網頁 

可以看到,Google用[PDF]來標記這是一個PDF的文檔檢索,另外,它還給出了該PDF文檔的HTML版本,該HTML版保留了文檔的文字內容和結構,但沒有圖片。 

8.3,搜索的關鍵字包含在URL鏈接中 

“inurl”語法返回的網頁鏈接中包含第一個關鍵字,後面的關鍵字則出現在鏈接中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源鏈接,然後,用第二個關鍵詞確定是否有某項具體資料。INURL語法和基本搜索語法的最大區別在於,前者通常能提供非常精確的專題資料。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章