原创 關於N皇后問題高效試探回溯算法的分析

// N Queens Problem// 試探-回溯算法,遞歸實現 // sum用來記錄皇后放置成功的不同佈局數;upperlim用來標記所有列都已經放置好了皇后。long sum = 0, upperlim = 1;      //

原创 C++ virtual member function FAQ

【1】  虛成員函數和非虛成員函數調用方式有什麼不同?    非虛成員函數是靜態確定的。也就是說,該成員函數(在編譯時)被靜態地選擇,該選擇基於指向對象的指針(或引用)的類型。 相比而言,虛成員函數是動態確定的(在運行時)。也就是說,成員

原创 Indri 信息檢索模型

Indri 信息檢索模型戴維整理介紹        本文旨在闡述Indri所實現的檢索模型及其相關細節。參考文獻:Lavrenko, V. and Croft, W.B., "Relevance-Based Language Models

原创 松馳之道

前些日子下班時候,在一處擁擠難行的街道因爲用力過猛,竟然把自行車鏈條給扯斷了,最後只好拾起鏈條推着車回去。週末去修車,師傅說鏈條太短,估計是斷了一截,當時我就耐悶,難道我騎車都用這麼大力嗎?不過鏈條看來明顯是短了,就只好使用後齒輪的最小圈

原创 動態規劃算法剖析

最優化原理   1951年美國數學家R.Bellman等人,根據一類多階段問題的特點,把多階段決策問題變換爲一系列互相聯繫的單階段問題,然後逐個加以解決。一些靜態模型,只要人爲地引進“時間”因素,分成時段,就可以轉化成多階段的動態模型,用

原创 C++對象及多態實現探索之內存佈局

普通類對象的內存佈局首先我們從普通類對象的內存佈局開始。C000爲一個空類,定義如下:struct C000{}; 運行如下代碼打印它的大小及對象中的內容。PRINT_SIZE_DETAIL(C000) 結果爲:The size of C

原创 如何使用fstream類在讀寫操作之間任意轉化?

#include<iostream>#include<fstream>#include<sstream>#include<string>using namespace std;int main(){ fstream io("test.tx

原创 Indri 動態文檔索引技術

Indri中的動態文檔索引技術 戴維 譯   摘要: Indri 動態文檔索引的實現技術,支持在更新索引的同時處理用戶在線查詢請求。 文本搜索引擎曾被設計爲針對固定的文檔集合進行查詢,對不少應用來說,這種機制工作得很好,然而對於諸於新聞,

原创 努力中

快樂的春節假期開始的前段日子,出於興趣,花了一天時間完成了第一個版本的音字轉換,功能和現在baidu或者sogou上的拼音輸入相同,只有簡單的音詞轉化提示,對於一長串的拼音流我也只是稍微作了最大匹配,求取基於一元概率最大值的漢字序列,小小

原创 思索中

爲了做出好的音字轉化程序,最近又開始研究k shortest paths算法了,搜刮了10多篇各個年代的論文,一路啃過來,幾天後終於有所收穫。接下來就

原创 Indri 開源搜索引擎

    一直對Lemur有所熟悉,有感於國外大學在研究和實踐上的並駕齊驅,特翻譯並撰寫Indri開源搜索引擎的相關文章,以供志趣相同者共同參考。    Indri是一個完整的開源搜索引擎,由卡耐基-梅隆大學Lemur項目組維護並持續開發。

原创 搜索引擎中幾種語言模型的性能比較

[正文等待上傳......] 人工構建中文query,對人民日報語了進行測試,各種語言模型的效果對比結果如下:                                     插值 recall-precision 曲線圖

原创 我的中文句法分析器

鑑於上次“如此開源”之痛,所以花了幾天時間,邊看《誅仙》邊完成了一個通用的中文句法分析器,採用Earley的Chart Parsing算法,當然也基於我強大的中文分詞標註一體化系統。偶然想到在這個一體化系統上再融合進句法分析,實在是一個不

原创 靈感就是靈感

面對分詞系統中的命名實體識別已經很難下手提高精度,中斷了一段時間去做完了一個有趣的拼音輸入法,在快撰寫完相關專利申請文稿的時候,又有些百無聊賴了,想想下面又要回去面對那個代碼似乎已經很漂亮而精度卻難於提升的分詞標註系統,一片空白。自然語言

原创 如此開源

聽說哈工大和計算所有句法分析開源,滿懷欣喜地想借鑑一下研究之作,卻沒想其層層設限,根本無從下載。大悟,原來這就是他們所謂的開源! 揣想我們中文自然語言處理的舉步不前,難道和這些可笑的“敝帚自珍”之舉毫無關係嗎?其實即算能夠付諸實用的句法分