原创 (四)訓練Part 1 zz

訓練,顧名思義,就是training(汗,這解釋),簡單的說就是讓計算機從給定的一堆文檔中自己學習分類的規則(如果學不對的話,還要,打屁屁?)。   開始訓練之前,再多說幾句關於VSM這種文檔表示模型的話。   舉個例子,假設說把我正

原创 (一)文本分類問題的定義zz

一個文本(以下基本不區分“文本”和“文檔”兩個詞的含義)分類問題就是將一篇文檔歸入預先定義的幾個類別中的一個或幾個,而文本的自動分類則是使用計算機程序來實現這樣的分類。通俗點說,就好比你拿一篇文章,問計算機這文章要說的究竟是體育,經濟

原创 Weka下使用LibSVM的一點心得

  寫這篇“Weka下使用LibSVM 的一點心得”本來並非有此想法,而是在使用Weka樸素貝葉斯分類器的時候,發現有一個LibSVM的選項。恰逢一個項目需要使用SVM分類器,所以就做了一下嘗試。但是提示錯誤:“libsvm classe

原创 Tomcat中運行nutch的結果

1、 複製nutch-1.2.war到到../tomcat7/webapps/下   2、 修改/webapps/nutch/WEB-INF/classes/nutch-site.xml : 將 <nutch-conf> </nutch

原创 ubuntu下nutch-1.2配置

1、下載nutch1.2到指定一個目錄下,並打開eclipse新建一個java工程。並選擇"Create project from existing source",指向nutch目錄。   2、下一步操作,切換到"Libraries"選

原创 數學之美番外篇:平凡而又神奇的貝葉斯方法

轉:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/   概率論只不過是把常識用數學公式表達了出來。 ——拉普拉斯 記得讀本科的時候,最喜歡到城裏的計算機書店裏面去閒逛

原创 (二)文本分類的方法zz

文本分類問題與其它分類問題沒有本質上的區別,其方法可以歸結爲根據待分類數據的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標準)選擇最優的匹配結果,從而完成分類。   因此核心的問題便轉化爲用哪些特徵表示一個文

原创 機器學習中的相似性度量zz

在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常採用的方法就是計算樣本間的“距離”(Distance)。採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。   本文的目

原创 (三)統計學習方法zz

前文說到使用統計學習方法進行文本分類就是讓計算機自己來觀察由人提供的訓練文檔集,自己總結出用於判別文檔類別的規則和依據。理想的結果當然是讓計算機在理解文章內容的基礎上進行這樣的分類,然而遺憾的是,我們所說的“理解”往往指的是文章的語義

原创 在Ubuntu 10.10下安裝JDK配置Eclipse及Tomcat

本文將詳細介紹在Ubuntu 10.10下安裝JDK配置Eclipse及Tomcat。JDK版本爲jdk-6u23-linux-i586.bin、Tomcat的版本爲apache-tomcat-7.0.5.tar.gz。 AD:

原创 特徵選擇常用算法綜述

1 綜述 (1) 什麼是特徵選擇 特徵選擇 ( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ) ,或屬性選擇( Attribute Selection ) ,

原创 (五)訓練Part 2

將樣本數據成功轉化爲向量表示之後,計算機纔算開始真正意義上的“學習”過程。   再重複一次,所謂樣本,也叫訓練數據,是由人工進行分類處理過的文檔集合,計算機認爲這些數據的分類是絕對正確的,可以信賴的(但某些方法也有針對訓練數據可能有

原创 [zz]微軟面試題之64

64. 尋找醜數。 題目:我們把只包含因子2、3和5的數稱作醜數(Ugly Number)。例如6、8都是醜數,但14不是,因爲它包含因子7。習慣上我們把1當做是第一個醜數。 求按從小到大的順序的第1500個醜數。 分析:這是一道在網絡上

原创 【zz】二叉樹遍歷及C語言實現

二叉樹遍歷及C語言實現 已知中序和前序序列,或者已知中序和後序序列,都能夠構造一棵二叉樹。在本例中,本人用C語言寫程序解答了下面兩個算法題: (1)給出一棵二叉樹的中序與後序遍歷序列,求出它的先序遍歷序列。 (2)給出一棵二叉樹的中序

原创 [zz]打造自己的分佈式搜索引擎底層架構(非Lucene)

打造自己的分佈式搜索引擎底層架構(非Lucene) 大家知道,搜索引擎技術不僅僅是類似百度首頁的應用,還可以衍生出數據分析工具,商務智能工具等許多有賣點的應用,甚至是社會化關係通道的發現。甚至這些非搜索引擎的搜索引擎產品纔是最重要的,