原创 Xapian:Database

在Xapian1.0之前,是使用quartz作爲database文件格式的,不過自從1.0之後,便改用Flint作爲database的文件格式了。有時候,我們會將database稱爲“索引”,在Xapian中,索引通常比被索引的docum

原创 sphinx 配置文件說明

sphinx的配置文件是在配置的時候最容易出錯的了: 我們先要明白幾個概念: source:數據源,數據是從什麼地方來的。index:索引,當有數據源之後,從數據源處構建索引。索引實際上就是相當於一個字典檢索。有了整本字典內容以後,纔

原创 leveldb實現原理

鄭重聲明:本篇博客是自己學習 Leveldb 實現原理時參考了郎格科技系列博客整理的,原文地址:http://www.samecity.com/blog/Index.asp?SortID=12,只是爲了加深印象,本文的配圖是自己重新繪製

原创 pdf轉png

在項目開發中經常會有將“word轉換爲pdf”、“將word轉換爲圖片”、將“pdf轉換爲圖片” 的需求。 針對如上需求,寫一下自己在這方面的實現: 1、word轉換爲pdf ,前面有文章已經寫過,參考地址: http://blog

原创 __thread關鍵字

 __thread是GCC內置的線程局部存儲設施,存取效率可以和全局變量相比。__thread變量每一個線程有一份獨立實體,各個線程的值互不干擾。可以用來修飾那些帶有全局性且值可能變,但是又不值得用全局變量保護的變量。        

原创 sscanf的使用

 sscanf(recvbuf,"%*[^/]/%[^ ]s",buf_rev);   sscanf(buf, "GET /%[^ ]", buf_rev);   這個是在一個webserver.c裏面的例子,通過ssca

原创 pdf結構介紹

1 引言  結構化的文檔格式PDF(Portable Document Format)是由美國排版與圖像處理軟件公司Adobe於1993年首次提出的。它從頁面描述語言PS(PostScript)發展而來,具有與PS幾乎相同的頁面描述能力和

原创 swf文件數據格式分析

由於最近項目需要對swf文件進行分析,在網上找了不少資料,也參照了adobe官方發佈的swf file format文檔,但是並不是很明白。後來經過幾天的努力,終於有所頓悟(可憐天生遲鈍,領悟能力比較差吧,那只有勤能補拙,多花點時間

原创 Xapian :Document、Term和Value

在信息檢索(IR)中,我們企圖要獲取的項稱之爲“document”,每一個document是被一個terms集合所描述的。“document”和“term”這兩個詞彙是IR中的術語,它們是來自“圖書館管理學”的。通常一個docume

原创 Python 爬蟲工具列表

目錄[-] 網絡 網絡爬蟲框架 HTML/XML解析器 文本處理 特定格式文件處理 自然語言處理 瀏覽器自動化與仿真 多重處理 異步 隊列 雲計算 電子郵件 網址和網絡地址操作 網頁內容提取 WebSocket DNS解析 計算機視

原创 Xapian:檢索

經過前面幾篇的介紹,如果再參考一下Omega的話,估計應該可以順利創建database和往database裏添加document了。有了數據,下一步關心的當然是怎樣將它們查出來,在一個IR系統(不單止Xapian)中,檢索的方式是多元化的

原创 學習Xapian(3) – 同義詞的查詢拓展

Xapian支持同義詞的查詢拓展。 按照同義詞進行拓展算是查詢拓展最基本的一種方式。 比如“汽車展覽”和“車展”是同義詞,我們搜索汽車展覽的時候,也會把“車展”的結果返回。 很多人認爲這個就是拼寫校正,但實際它比拼寫校正稍微高級點,特別

原创 xapian簡介

Xapian與開源 Xapian的官方網站是http://www.xapian.org,這是一個非常優秀的開源搜索引擎項目,搜索引擎其實只是一個通俗的說法,正式的說法其實是IR(Information Retrieval)系統。Xapia

原创 swftool pdf2swf使用

SWFTools提供了一系列將各種文件轉成swf的工具: font2swf.exe gif2swf.exe jpeg2swf.exe pdf2swf.exe png2swf.exe wav2swf.exe 具體的功能就顧名思義了。 其中把

原创 學習Xapian(1) – 基礎的建索引和搜索

Xapian是一款開源的C++信息檢索系統,提供了非常強大的功能。 國人喜歡跟風,收到某宴的影響,國人一直推崇Sphinx:與MySQL深度集成,開箱即用,非常傻瓜。但是它定製起來非常的麻煩,就連最基礎的中文分詞都要改好多地方纔能實現