原创 Lucene in action 筆記 term vector

Leveraging term vectors 所謂term vector, 就是對於documents的某一field,如title,body這種文本類型的, 建立詞頻的多維向量空間.每一個詞就是一維, 這維的值就是這個詞在這個fiel

原创 數論(算法概述)

1. 模運算 模運算很有用, 最常用的是鐘錶. 還有二進制負數的補碼, 有2n 個數, [-2n-1 , 2n-1 -1] 正數當然直接表示成2進制即可, 對於負數就需要用補碼, 即[1, 2n-1 ] 的二進制表示的取反再加一.

原创 Classify Text With NLTK

Classification is the task of choosing the correct class label for a given input. A classifier is called supervised i

原创 Extracting Information from Text With NLTK

因爲現實中的數據多爲‘非結構化數據’,比如一般的txt文檔,或是‘半結構化數據’,比如html,對於這樣的數據需要採用一些技術才能從中提取出有用的信息。如果所有數據都是‘結構化數據’,比如Xml或關係數據庫,那麼就不需要特別去提取了,可以

原创 Hadoop- The Definitive Guide 筆記

首先我們爲什麼需要Hadoop? The good news is that Big Data is here. The bad news is that we are struggling to store and analyze

原创 Lucene in action 筆記 analysis篇

Analysis, in Lucene, is the process of converting field text into its most fundamental indexed representation, terms.  

原创 Lucene in action 筆記 case study

一. Nutch 作爲用lucene實現的開源search engine怎麼使用lucene的了. Nutch用了許多個的lucene indexes放在不同的server上, 因爲是面對Web-scale的, document數目在1-

原创 索引構造

顧名思義這章就是要談怎樣構造索引的問題,或者說在有限內存和有限時間內,怎麼樣高效的對大數據集構造索引文件。一旦有了這個索引文件,那麼索引的壓縮,基於索引的排序,前面的章節都已經講過。   鏈接列表 先來看看最一般的方法,在內存中構建這

原创 Lucene in action 筆記 index篇

一. Index之前要做什麼 1. 將要index的內容轉化爲文本 你要處理的文件可能是PDF, word, html, OK通通轉化成文本, lucene只能處理文本 2.分析文本 在index之前, 必須對文本做一系列的分析, 對文本

原创 Managing Gigabytes--文本壓縮

開門見山,文本壓縮可以歸納爲兩大類, 符號方法和字典方法, 下面分別介紹下: 1)符號方法,symbolwise method普通編碼方式是每個字符都採用相同位數編碼, 比如asc碼, 每個字符都是8位編碼。那麼現在要壓縮,就是要用更少的

原创 Programming Collecive Intelligence 筆記 Making Recommendations

現在recommendation是非常普遍的一項技術, 在網上購物Amazon會推薦你可能感興趣的商品,在電影,音樂網站,會推薦你可能喜歡的音樂或電影。那麼這兒就來看看,這些推薦是怎麼樣實現的   Collaborative Filter

原创 索引

在這個信息爆炸的年代, 信息索引的重要性不言而喻。現在主要的索引結構就是倒排索引,又稱爲記錄文件(posting file),詞彙索引(concordance)。其他的還有簽名文件(signature file), 和 位圖(bitmap

原创 算法概論-堆排序

在看搜索引擎做查詢結果排序的用到了堆排序,特來複習一下。那麼在深入堆排序之前先來列舉一下常見的排序方法,Insertion sort ,最簡單直觀的排序方法,時間複雜度最壞O(n2 ),in place(Recall that a sor

原创 POS Tagging

POS tagging :part-of-speech tagging , or word classes or lexical categories . 說法很多其實就是詞性標註。 那麼用nltk的工具集的off-the-shelf工

原创 Lucene in action 筆記 search篇

一. 用lucene怎麼完成search 1. 創建IndexSearcher IndexSearcher searcher = new IndexSearcher(directory); 2. 生成需要搜索的詞 Term t = new