搜索引擎代碼資源[轉載]

http://www.cnblogs.com/caca/articles/727636.html

 

一、搜索引擎/網絡蜘蛛程序代碼

國外開發的相關程序

1、Nutch

官方網站 http://www.nutch.org/
中文站點 http://www.nutchchina.com/
最新版本:Nutch 0.7.2 Released

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,可以建立自己內部網的搜索引擎,也可以針對整個網絡建立搜索引擎。自由(Free)而免費(Free)。

2、Lucene

官方網站  http://lucene.apache.org
中文站點  http://www.lucene.com.cn/

Lucene是apache軟件基金會 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包[用Java寫的],即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是爲軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此爲基礎建立起完整的全文檢索引擎。

3、Larbin: http://larbin.sourceforge.net/index-eng.html

larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最後爲搜索引擎提供廣泛的數據來源。

國內開發的相關程序

1、SQLET - 開放源碼的中文搜索引擎   

官方網站 http://www.sqlet.com/

SQLET,是Search & Query &Link, 加後綴 let,表示小的,小型的意思.打算建立一個能搜上億張網頁的基於主題功能的中文搜索引擎.支持3種索引方式:MySql_table_Index,Lucene_Index,SQLET_Index.網頁抓取可以保存在文件系統及數據庫裏。自帶WebServer.

2、菲度垂直搜索引擎代碼

菲度http://www.faydu.net 爲一個垂直在線搜索的演示版,主要對國內一些購物站點進行搜索整理,
語言:VB.net(c#)

二、中文分詞程序代碼

1、計算所漢語詞法分析系統 ICTCLAS

中國科學院計算技術研究所在多年研究基礎上,耗時一年研製出了基於多層隱馬模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標註;未登錄詞識別。分詞正確率高達97.58%(最近的973專家組評測結果),基於角色標註的未登錄詞識別能取得高於90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標註處理速度爲31.5KB/s。ICTCLAS 和計算所其他14項免費發佈的成果被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。

下載頁面:http://www.nlp.org.cn/project/project.php?proj_id=6

由於 ICTCLAS 是由 C 語言寫成的,現在主流的開發工具用起來不太方便,於是有一些熱心的程序員把 ICTCLAS 改爲 Java 和 C# 等其他語言。

(1)fenci,Java 的 ICTCLAS,下載頁面:http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一個 Java 的 ICTCLAS,已經找不到下載頁面,點擊本地下載

(3)小叮咚中文分詞,曾經有下載頁面,現在找不到了。據作者介紹,從 ICTCLAS 中改進,有 Java,C# 和 C++ 三個版本,介紹頁面:http://www.donews.net/accesine

2、海量智能分詞研究版

海量智能計算技術研究中心爲了使中文信息處理領域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發佈《海量智能分詞研究版》,供專家、學者和愛好者進行研究。

下載頁面:http://www.hylanda.com/cgi-bin/download/download.asp?id=8


3、其他

(1)CSW中文智能分詞組件

運行環境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發語言中調用。

簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規漢語詞組進行拆分,並以指定方式進行分隔,且可對其拆分後的詞組進行語義、詞頻標註。其廣範應用於各行各業的信息資料檢索、分析。

下載頁面:http://www.vgoogle.net/

(2) C# 寫的中文分詞組件

據作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#託管代碼編寫,獨立開發。

下載頁面:http://www.rainsts.net/article.asp?id=48

三、開源spider一覽

spider是搜索引擎的必須模塊.spider數據的結果直接影響到搜索引擎的評價指標.

第一個spider程序由MIT的Matthew K Gray操刀該程序的目的是爲了統計互聯網中主機的數目

Spier定義(關於Spider的定義,有廣義和狹義兩種).

  • 狹義:利用標準的http協議根據超鏈和web文檔檢索的方法遍歷萬維網信息空間的軟件程序.
  • 廣義:所有能利用http協議檢索web文檔的軟件都稱之爲spider.

其中Protocol Gives Sites Way To Keep Out The 'Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相關的協議,大家有興趣參考robotstxt.org.

Heritrix

 

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt.

語言:JAVA, (下載地址)

WebLech URL Spider

WebLech is a fully featured web site download/mirror tool in Java, which supports many features required to download websites and emulate standard web-browser behaviour as much as possible. WebLech is multithreaded and comes with a GUI console.

語言:JAVA, (下載地址)

JSpider

A Java implementation of a flexible and extensible web spider engine. Optional modules allow functionality to be added (searching dead links, testing the performance and scalability of a site, creating a sitemap, etc ..

 

語言:JAVA, (下載地址)

WebSPHINX

WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.

 

語言:JAVA, (下載地址)

PySolitaire

PySolitaire is a fork of PySol Solitaire that runs correctly on Windows and has a nice clean installer. PySolitaire (Python Solitaire) is a collection of more than 300 solitaire and Mahjongg games like Klondike and Spider.

 

語言:Python , (下載地址)

The Spider Web Network Xoops Mod Team     

The Spider Web Network Xoops Module Team provides modules for the Xoops community written in the PHP coding language. We develop mods and or take existing php script and port it into the Xoops format. High quality mods is our goal.

 

語言:php , (下載地址)

Fetchgals

A multi-threaded web spider that finds free porn thumbnail galleries by visiting a list of known TGPs (Thumbnail Gallery Posts). It optionally downloads the located pictures and movies. TGP list is included. Public domain perl script running on Linux.

 

 

語言:perl , (下載地址)

 

Where Spider


The purpose of the Where Spider software is to provide a database system for storing URL addresses. The software is used for both ripping links and browsing them offline. The software uses a pure XML database which is easy to export and import.

語言:XML , (下載地址)

Sperowider Website Archiving Suite is a set of Java applications, the primary purpose of which is to spider dynamic websites, and to create static distributable archives with a full text search index usable by an associated Java applet.

語言:Java , (下載地址)

 

SpiderPy is a web crawling spider program written in Python that allows users to collect files and search web sites through a configurable interface.

語言:Python , (下載地址)

Spider is a complete standalone Java application designed to easily integrate varied datasources. * XML driven framework * Scheduled pulling * Highly extensible * Provides hooks for custom post-processing and configuration

語言:Java , (下載地址)

WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology.

語言:java , (下載地址)

ASpider

Robust featureful multi-threaded CLI web spider using apache commons httpclient v3.0 written in java. ASpider downloads any files matching your given mime-types from a website. Tries to reg.exp. match emails by default, logging all results using log4j.

語言:java , (下載地址)

larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

語言:C++, (下載地址)

webloupeSpidered Data RetrievalSpiderPySperowider

三、SEO相關資源

  1、域名信息查詢

    ★ 查詢國際頂級域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int, .museum, .net, .org),可以通過ICANN授權的域名註冊商來查詢,也可以直接到INTERNIC網站查詢,網址是

http://www.internic.com/whois.html

       http://www.iwhois.com/

★ 查詢全球各個地理頂級域名是否已經被註冊可以到下列網址查詢(其中也包括國內域名.cn):

http://www.uwhois.com/cgi/domains.cgi?User=NoAds

★ 查詢國內域名的註冊情況,

http://ewhois.cnnic.net.cn/index.jsp

        ★ 萬網的域名註冊信息查詢

        http://www.net.cn/

        ★ IP地址查詢、域名註冊信息Whois查詢

       http://ip.zahuopu.com/


   2、alexa相關與搜索排行榜

     ★ 中文排名500強

     http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312

     ★ Google Zeitgeist--Google搜索排行榜

     http://www.google.com/press/intl-zeitgeist.html#cn

     ★ 百度中文搜索風雲榜

     http://top.baidu.com/

    ★ 雅虎搜索排行榜

    http://misc.yahoo.com.cn/top_index.html

    ★ 搜狗搜索指數

   http://www.sogou.com/top/

   3、搜索關鍵詞查詢

    ★   google關鍵字查詢   https://adwords.google.com/select/KeywordSandbox
    ★ 百度關鍵字查詢   http://www2.baidu.com/inquire/dsquery.php
    ★ 搜狐關鍵詞   http://db.sohu.com/regurl/pv_price/query_consumer.asp

   4、seo項目/工具

   ★網頁質量    http://category.booso.com/cgi-bin/category/category.cgi
   ★關鍵詞密度   http://www.21ql.com/seo/keyword.asp
   ★搜索引擎蜘蛛模擬器  http://www.webconfs.com/search-engine-spider-simulator.php

    ★Google Dance查詢工具:http://www.google-dance-tool.com/

   5、seo網站

  英文網站

   搜索觀察  http://www.searchenginewatch.com/
   seochat   http://www.seochat.com

   中文網站

1>美國尚奇公司 http://www.zunch.cn

全球領先的網站設計和搜索引擎優化服務公司 ,目前中國區負責人爲--柳煥斌

尚奇博客社區  blog.zunch.cn


在這裏可以獲取最新的SEO行業信息

   2>搜索引擎優化交流中心      http://www.seoonline.cn

SEO從業者網站

1>尚奇中國區負責人爲--柳煥斌  http://blog.zunch.cn/category/robinliu/

2>seo專業人士--bianyue      http://www.bianyue.com/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章