搜索引擎資料收藏(轉)

搜索引擎資料收集(轉)

搜索引擎學習資源收集

一、搜索引擎技術/動態資源

<一>、綜合類

1、盧亮的搜索引擎研究 http://www.wespoke.com/

盧亮屬於搜索引擎開發上的專家,以前開發過一個搜索引擎"博索"(http://booso.com/),好像現在已經停止開發了,目前他服務於博客網。在他的這個blog上可以瞭解許多搜索引擎開發的技術和經驗,值得持續關注。

2、laolu'blog

有不少來自國外的關於搜索引擎方面的資料,偏重於資料和數字

3、哈斯日誌 http://www.loverty.org/

在這裏可以看到國內外幾大搜索引擎的最新動態,值得關注搜索發展形勢的人多看看

4、北京奕天銳新科技有限公司 http://www.21cnbj.com/

搜索引擎、SEO、SEM等行業新聞動態

5、中文搜索引擎指南網 http://www.sowang.com/

搜索引擎最新動態,各種搜索技巧、方法

6、中文全文檢索網 http://www.fullsearcher.com/

FullSearcher.Com是有兩個對搜索愛好的年輕人創辦,我們的目標是讓中文互聯網全面進入搜索時代,讓搜索無處不在。通過搜索改變人們的生活。
FullSearcher提供全文檢索的相關知識、垂直搜索引擎知識、搜索的相關新聞等搜索相關內容。

7、周博——每天9點檔的搜索引擎動態

8、李彥宏的博客 http://hi.baidu.com/liyanhong

9、中科院軟件所- 張俊林博客 http://blog.csdn.net/malefactor/

搜索引擎技術研究

<二>、Google動態

Google官方博客:Google 黑板報 http://googlechinablog.com/

Google 中國的博客網誌,走近我們的產品、技術和文化
1、Gfans http://gfans.org/

2、G速客 http://www.gseeker.com/


<二>、其他搜索引擎動態

1、雅虎搜索日誌 http://ysearchblog.cn/

記錄雅虎搜索引擎的動態、產品、技術等

2、搜狗實驗室 http://www.sogou.com/labs/

搜狗實驗室(Sogou Labs)是搜狗搜索核心研發團隊對外交流的窗口,包含創意產品、原型演示、資料下載、學術論文四個欄目。實驗室熱烈歡迎一直以來關注搜狗、支持搜狗的各 位互聯網玩家;對於致力於中文互聯網研究的學術界同仁們的經常來訪,也予以熱切的期待。我們期望通過這個平臺,展現搜狗研發團隊強大的研發、創新能力;推 動學術界和產業界的交互;瞭解用戶對新產品的需求。我們的目標:爲中文網民的互聯網生活提供更加全面、更加優質的服務。

搜狗實驗室博客 http://labs.blog.sohu.com/

3、百度的空間 http://hi.baidu.com/baidu

百度的動態

4、有道搜索博客 http://i.yodao.com/

網易新推搜索引擎--有道搜索的近期動態

5、Live Search's WebLog http://blogs.msdn.com/livesearch/

Microsoft Live Search's news http://windowslivebeta.spaces.live.com/

二、搜索引擎代碼資源

一>、搜索引擎/網絡蜘蛛程序代碼

國外開發的相關程序

1、Nutch

官方網站 http://www.nutch.org/
中文站點 http://www.nutchchina.com/
最新版本:Nutch 0.7.2 Released

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,可以建立自己內部網的搜索引擎,也可以針對整個網絡建立搜索引擎。自由(Free)而免費(Free)。

2、Lucene

官方網站 http://lucene.apache.org
中文站點 http://www.lucene.com.cn/

Lucene 是apache軟件基金會 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包[用Java寫的],即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的 架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包,以 方便的在目標系統中實現全文檢索的功能,或者是以此爲基礎建立起完整的全文檢索引擎。

3、Larbin: http://larbin.sourceforge.net/index-eng.html

larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最後爲搜索引擎提供廣泛的數據來源。

國內開發的相關程序

1、SQLET - 開放源碼的中文搜索引擎

官方網站 http://www.sqlet.com/

SQLET,是Search & Query &Link, 加後綴 let,表示小的,小型的意思.打算建立一個能搜上億張網頁的基於主題功能的中文搜索引擎.支持3種索引方式:MySql_table_Index, Lucene_Index,SQLET_Index.網頁抓取可以保存在文件系統及數據庫裏。自帶WebServer.

2、菲度垂直搜索引擎代碼

菲度http://www.faydu.net 爲一個垂直在線搜索的演示版,主要對國內一些購物站點進行搜索整理,

現在開源測試版本的代碼,供大家討論。下載說明:

1》因爲本程序是在服務器上運行,是在多個處理器下運行的,個人電腦上請控制線程數量

2》包含一個data 的數據庫 還原到sql server

3》收集完畢默認在bin目錄有licene生成的反排的索引文件

4》下載地址:http://www.faydu.net/download/code.rar

開放日期:2006-4-18 來源:http://blog.csdn.net/faydu/archive/2006/04/18/667997.aspx
語言:VB.net(c#)

二>、中文分詞程序代碼

1、計算所漢語詞法分析系統 ICTCLAS

中國科學院計算技術研究所在多年研究基礎上,耗時一年研製出了基於多層隱馬模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標註;未登錄詞識別。分詞正確率高達97.58%(最近的973專家組評測結果),基於角色標註的未登錄 詞識別能取得高於90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標註處理速度爲31.5KB/s。ICTCLAS 和計算所其他14項免費發佈的成果被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。

下載頁面:http://www.nlp.org.cn/project/project.php?proj_id=6

由於 ICTCLAS 是由 C 語言寫成的,現在主流的開發工具用起來不太方便,於是有一些熱心的程序員把 ICTCLAS 改爲 Java 和 C# 等其他語言。

(1)fenci,Java 的 ICTCLAS,下載頁面:http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一個 Java 的 ICTCLAS,已經找不到下載頁面,點擊本地下載

(3)小叮咚中文分詞,曾經有下載頁面,現在找不到了。據作者介紹,從 ICTCLAS 中改進,有 Java,C# 和 C++ 三個版本,介紹頁面:http://www.donews.net/accesine

2、海量智能分詞研究版

海量智能計算技術研究中心爲了使中文信息處理領域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發佈《海量智能分詞研究版》,供專家、學者和愛好者進行研究。

下載頁面:http://www.hylanda.com/cgi-bin/download/download.asp?id=8


3、其他

(1)CSW中文智能分詞組件

運行環境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發語言中調用。

簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規漢語詞組進行拆分,並以指定方式進行分隔,且可對其拆分後的詞組進行語義、詞頻標註。其廣範應用於各行各業的信息資料檢索、分析。

下載頁面:http://www.vgoogle.net/

(2) C# 寫的中文分詞組件

據作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#託管代碼編寫,獨立開發。
 
三>、開源spider一覽

spider是搜索引擎的必須模塊.spider數據的結果直接影響到搜索引擎的評價指標.

第一個spider程序由MIT的Matthew K Gray操刀該程序的目的是爲了統計互聯網中主機的數目

Spier定義(關於Spider的定義,有廣義和狹義兩種).

* 狹義:利用標準的http協議根據超鏈和web文檔檢索的方法遍歷萬維網信息空間的軟件程序.
* 廣義:所有能利用http協議檢索web文檔的軟件都稱之爲spider.

其中Protocol Gives Sites Way To Keep Out The 'Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相關的協議,大家有興趣參考robotstxt.org.
Heritrix

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.

語言:JAVA, (下載地址)http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980
WebLech URL Spider

WebLech is a fully featured web site download/mirror tool in Java, which supports many features required to download websites and emulate standard web-browser behaviour as much as possible. WebLech is multithreaded and comes with a GUI console.

語言:JAVA, (下載地址) http://sourceforge.net/project/showfiles.php?group_id=38170

JSpider

A Java implementation of a flexible and extensible web spider engine. Optional modules allow functionality to be added (searching dead links, testing the performance and scalability of a site, creating a sitemap, etc ..

語言:JAVA, (下載地址)http://sourceforge.net/project/showfiles.php?group_id=65617

WebSPHINX

WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.

語言:JAVA, (下載地址)http://sourceforge.net/project/showfiles.php?group_id=48810

PySolitaire

PySolitaire is a fork of PySol Solitaire that runs correctly on Windows and has a nice clean installer. PySolitaire (Python Solitaire) is a collection of more than 300 solitaire and Mahjongg games like Klondike and Spider.

語言ython , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=86107

The Spider Web Network Xoops Mod Team

The Spider Web Network Xoops Module Team provides modules for the Xoops community written in the PHP coding language. We develop mods and or take existing php script and port it into the Xoops format. High quality mods is our goal.

語言p: hp , (下載地址) http://sourceforge.net/projects/tswnmoddev

Fetchgals

A multi-threaded web spider that finds free porn thumbnail galleries by visiting a list of known TGPs (Thumbnail Gallery Posts). It optionally downloads the located pictures and movies. TGP list is included. Public domain perl script running on Linux.

語言p: erl , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=110338

Where Spider

The purpose of the Where Spider software is to provide a database system for storing URL addresses. The software is used for both ripping links and browsing them offline. The software uses a pure XML database which is easy to export and import.

語言:XML , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=115931

Sperowider

Sperowider Website Archiving Suite is a set of Java applications, the primary purpose of which is to spider dynamic websites, and to create static distributable archives with a full text search index usable by an associated Java applet.

語言:Java , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=90254

SpiderPy

SpiderPy is a web crawling spider program written in Python that allows users to collect files and search web sites through a configurable interface.

語言ython , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=55531

Spidered Data Retrieval

Spider is a complete standalone Java application designed to easily integrate varied datasources. * XML driven framework * Scheduled pulling * Highly extensible * Provides hooks for custom post-processing and configuration

語言:Java , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=90769

webloupe

WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology.

語言:java , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=121963

ASpider

Robust featureful multi-threaded CLI web spider using apache commons httpclient v3.0 written in java. ASpider downloads any files matching your given mime-types from a website. Tries to reg.exp. match emails by default, logging all results using log4j.

語言:java , (下載地址)http://sourceforge.net/project/showfiles.php?group_id=126578

larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

語言:C++, (下載地址)http://sourceforge.net/project/showfiles.php?group_id=42562


三、SEO相關資源

1、域名信息查詢

  ★ 查詢國際頂級域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int, .museum, .net, .org),可以通過ICANN授權的域名註冊商來查詢,也可以直接到INTERNIC網站查詢,網址是

  http://www.internic.com/whois.html

http://www.iwhois.com/

  ★ 查詢全球各個地理頂級域名是否已經被註冊可以到下列網址查詢(其中也包括國內域名.cn):

  http://www.uwhois.com/cgi/domains.cgi?User=NoAds

  ★ 查詢國內域名的註冊情況,

  http://ewhois.cnnic.net.cn/index.jsp

★ 萬網的域名註冊信息查詢

http://www.net.cn/

★ IP地址查詢、域名註冊信息Whois查詢

http://ip.zahuopu.com/


2、alexa相關與搜索排行榜

★ 中文排名500強

http://www.alexa.com/site/ds/top ... &lang=zh_gb2312

★ Google Zeitgeist--Google搜索排行榜

http://www.google.com/press/intl-zeitgeist.html#cn

★ 百度中文搜索風雲榜

http://top.baidu.com/

★ 雅虎搜索排行榜

http://misc.yahoo.com.cn/top_index.html

★ 搜狗搜索指數

http://www.sogou.com/top/

3、搜索關鍵詞查詢

★ google關鍵字查詢 https://adwords.google.com/select/KeywordSandbox
★ 百度關鍵字查詢 http://www2.baidu.com/inquire/dsquery.php
★ 搜狐關鍵詞 http://db.sohu.com/regurl/pv_price/query_consumer.asp



4、外部鏈接查詢

★ 搜狗Link查詢 http://www.sogou.com/features/

5、seo項目/工具

★網頁質量 http://category.booso.com/cgi-bin/category/category.cgi
★關鍵詞密度 http://www.21ql.com/seo/keyword.asp
★搜索引擎蜘蛛模擬器 http://www.webconfs.com/search-engine-spider-simulator.php

★Google Dance查詢工具:http://www.google-dance-tool.com/

6、seo網站

英文網站:

搜索觀察 http://www.searchenginewatch.com/
seochat http://www.seochat.com

中文網站



在這裏可以獲取最新的SEO行業信息

搜索引擎優化交流中心 http://www.seoonline.cn


四、各大搜索引擎公司相關資料

1、聯繫方式

Google

http://www.google.com/intl/zh-CN/contact.html
公司總部
1600 Amphitheatre Parkway
Mountain View, CA
94043 USA
phone: (650) 253-0000
fax: (650) 253-0001
電子郵件:[email protected]


百度

http://d.baidu.com/contact/index.html
電話 (010)82621188
傳真 (010)82607007 82607008
E-mail [email protected]
地址 北京市北四環西路58號理想國際大廈12層
郵編 100080


雅虎/一搜

http://cn.yahoo.com/docs/sales/040203_contact.htm
總機:010-65811221
地址:北京市朝陽區光華東路和喬大廈B座5層雅虎中國搜索事業部
郵編:100026
傳真:010-65812440
在線問題提交:http://www.yisou.com/search_feedback.html


中國搜索

http://www.zhongsou.com/kefu/kfzs.htm
地址:北京市西直門北大街42號華星大廈a座15.16層
郵編:100088
總機:010-62266296
傳真: 010-82211302


搜狐搜索

http://www.sohu.com/about/lianxi.htm
地址:北京市海淀區中關村東路1號清華科技園9號威新國際大廈10層
郵編: 100084
電話: 86-10-62726666
傳真: 86-10-62728300


新浪搜索

http://ads.sina.com.cn/contact.html
北京市北四環西路58號理想國際大廈20層
郵編:100080
Tel:(86-10)82628888
Fax:(86-10)82607166
搜索引擎諮詢電話:010-82628888轉6688
搜索引擎聯繫信箱 [email protected]


網易搜索

http://so.163.com/contactus.shtml
北京市東城區東長安街1號東方廣場東方經貿城東三辦公樓1901室
郵編/Zip:100738
網易搜索引擎客服熱線:
電話:010-82110163-8350、8121、8136
E-mail:[email protected]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章