原创 java 實現tfidf

tfidf 做自然語言理解的經常用。文檔的作爲權重計算, 許多初學者搞不清楚,權重計算特徵選擇。 針對文本分類而言 作爲很簡單的說明,特徵選擇都跟 類別有關比如 卡方 信息增益 而權重計算則與類別無關 比如 tfidf,tf 具體公式請參

原创 nutch elipse 配置的一些事項

  再往網上follow很多教程老是出錯,終於發現。   Add Class Folder和Add project 'conf' to build path,設置一個 , 設置了一個就不能再設另一個。反正意思吧conf 加到 path裏

原创 java實現 tfidf

轉載我的javaeye久鏈接: http://kobe00712.iteye.com/blog/1088455 tfidf 做自然語言理解的經常用。文檔的作爲權重計算, 許多初學者搞不清楚,權重計算特徵選擇。 針對文本分類而言 作爲很簡

原创 多項分佈 多項式分佈

摘要糾錯編輯摘要 二項分佈的典型例子是扔硬幣,硬幣正面朝上概率爲p, 重複扔n次硬幣,k次爲正面的概率即爲一個二項分佈概率。(嚴格定義見伯努利實驗定義)     把二項分佈公式再推廣,就得到了多項分佈。比如扔骰子,不同於扔硬幣,骰子

原创 位圖的索引的一個應用

     bitmap 是索引最長常見的一種實現方式。就是bit位的每一位,來作爲表示要索引的對象。通常位圖索引通常表達取值維度取值較少的數據.,最好是布爾值 比如                  男 1        婚否

原创 httpCLient 4.2 實現basic認證

httclient的實現basic認證的方式,和以前的版本不同。形式如下public static String setSetting1() throws ClientProtocolException,

原创 libsvm java 簡單調用,

 1,最近做文本分類的實驗。關於這方面代碼實現的文章還是比較少的。針對任何的東西動手,寫第一個程序蠻重要的。但是 很多看點參考的東西還是蠻有幫助,但是最終還是有自己讀文檔。隨便寫一下自我娛樂,牛人繞道 晚上大概看了libsvm的幾個類,s

原创 uplaodify動態修改上傳路徑

其實很簡單,就是動態修改參數。第一次寫東西,還是曬一下 <input id="fileupload" name="fileupload" type="file" /> <a href="ja

原创 被折騰家鄉

這次回家,記憶中開封已經被折騰不像樣,鼓樓廣場在重建的鼓樓,純粹的鋼筋混凝土建築,沒有一點古代磚木建築的味道。據父母講,也沒有記憶中的老鼓樓好看。鼓樓廣場 本來就狹小,重建鼓樓了,夜市怎麼辦,沒有人民大樓大的四面鐘下夜市。還叫開封

原创 美食和美景一樣需要偶遇

         今天天氣難得的好,從戒臺寺回來,到鼓樓中絛衚衕,找一家小小的炙子烤肉吃,但是那家居然關門大吉了。當時頗感飢餓。就在附近遊蕩找什麼吃的沒有。發現一家一家刷肉管,人挺多的。大衆點評了一下,居然是超火的館子。門簾不大,

原创 用監聽器listener獲得工程的跟路徑

工程中很多時候都會用到根路徑,特別很多人一起寫 項目的時候,每個人獲得根路徑的方法不一樣,爲了統一方便的獲得 根路徑,不知道大家是怎樣做的呢,我在寫項目的時候就用listener初始化 一個根路徑的變量,也不知道這種方法怎樣,給大

原创 java正則表達式入門文檔

引言     正則表達式(regular expression)描述了一種字符串匹配的模式,可以用來:(1)檢查一個串中是否含有符合某個規則的子串,並且可以得到這個子串;(2)根據匹配規則對字符串進行靈活的替換操作。     正則表達式

原创 也說原生廣告(一)

所謂原生廣告就是相對普通的的廣告而言廣告而言的,比如下圖這種啊,就是紅果果的硬廣告的。除了網頁,在手機aap和 看視頻的時候都會遇到的各種廣告(優酷那個倒計時傷不起的,你看人家youtube 不是會員都能跳過去)。          

原创 Mallet之源文件結構

原文地址:Mallet之源文件結構作者:hzbachMallet源文件中重要的子目錄: classify:監督式的分類算法 types:重要的數據結構類型,像Instance實例,FeatureVector特徵向量 pipe:特徵選擇

原创 Pipe類與Instance類介紹

原文地址:Pipe類與Instance類介紹作者:章芝青 抽象類pipe,是所有pipe類的父類,這些類的作用就是將數據從一種形式轉成另一種形式。在特徵提取階段,pipe類是最常用的。 pipe類操縱Instance類,Instanc