原创 (七)相關概念總結

學習方法:使用樣例(或稱樣本,訓練集)來合成計算機程序的過程稱爲學習方法[22]。   監督學習:學習過程中使用的樣例是由輸入/輸出對給出時,稱爲監督學習[22]。最典型的監督學習例子就是文本分類問題,訓練集是一些已經明確分好了類別文

原创 HIT中文命名實體識別

概況介紹 命名實體識別任務是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。在當今世界,隨着計算機的普及以及互聯網的迅猛發展,大量的信息以電子文檔的形式呈現在人們面前。爲了應對信息爆炸帶來的嚴重挑戰,人們迫切需

原创 Stay Hungry, Stay Foolish !!

在整個社會都在關注喬幫主的時候,我想在這裏和大家分享一個真實的就在我們程序員身邊的故事。和我在《如果你看不見你還能編嗎?》一文裏介紹的那些盲人程序員一樣,同樣是Stay Hungry, Stay Foolish。但我個人更認爲我今天想

原创 【zz】Java正則表達式入門

衆所周知,在程序開發中,難免會遇到需要匹配、查找、替換、判斷字符串的情況發生,而這些情況有時又比較複雜,如果用純編碼方式解決,往往會浪費程序員的時間及精力。因此,學習及使用正則表達式,便成了解決這一矛盾的主要手段。 大 家都知道,正則表達

原创 【tomcat+nutch+jdk】“中文亂碼”的原理和解決方法

【tomcat 亂碼的解決】 在 Nutch 的搜索框中輸入中文,點擊“搜索”按鈕之後,可以看到搜索框中的關鍵字是亂碼,搜索結果也爲空。網上有很多文章都談到了這個現象,這不是 Nutch 的問題,而是 Tomcat 沒有對 uri 做

原创 (九)文本分類問題的分類

開始之前首先說說分類體系。回憶一下,分類體系是指事先確定的類別的層次結構以及文檔與這些類別間的關係。   其中包含着兩方面的內容:   一,類別之間的關係。一般來說類別之間的關係都是可以表示成樹形結構,這意味着一個類有多個子類,而一個

原创 VS2008 快捷鍵大全[轉帖]

Ctrl+m+Crtr+o摺疊所有大綱Ctrl+M+Crtr+P: 停止大綱顯示Ctrl+K+Crtr+C: 註釋選定內容Ctrl+K+Crtr+U: 取消選定註釋內容Ctrl+J : 列出成員 智能感知 Shift+Alt+Ente

原创 (八)中英文文本分類的異同

從文本分類系統的處理流程來看,無論待分類的文本是中文還是英文,在訓練階段之前都要經過一個預處理的步驟,去除無用的信息,減少後續步驟的複雜度和計算負擔。   對中文文本來說,首先要經歷一個分詞的過程,就是把連續的文字流切分成一個一個單獨

原创 (六)訓練Part 3

SVM算法   支持向量機(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中[1

原创 各種排序算法

C代碼   #include <stdio.h>   #define N 5      //從小到大   void bubbleSort(int p[]){       int i=0,j=0,min=0;       for(

原创 dom4j通過xpath查詢xml

   訂閱 獲取Document SAXReader saxReader = new SAXReader(); Document document = saxReader.read(FileUtil.getFileInputS

原创 六度空間理論

  六度空間理論         有一個數學領域的猜想,名爲Six Degrees of Separation,中文翻譯包括以下幾種: 六度分隔理論、六度空間理論以及小世界理論等。        六度空間理論指出:你和任何一個陌生人之間所

原创 (十)特徵選擇算法之開方檢驗

前文提到過,除了分類算法以外,爲分類文本作處理的特徵提取算法也對最終效果有巨大影響,而特徵提取算法又分爲特徵選擇和特徵抽取兩大類,其中特徵選擇算法有互信息,文檔頻率,信息增益,開方檢驗等等十數種,這次先介紹特徵選擇算法中效果比較好的開

原创 (十一)特徵選擇方法之信息增益

前文提到過,除了開方檢驗(CHI)以外,信息增益(IG,Information Gain)也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗

原创 Googler

Google的要求:Google軟件工程水平的評估核心主要包括:編碼、算法開發、數據結構、設計模式以及分析思考能力等。你將見到幾位來自Google不同團隊的工程師,他們將會給你一個關於Google工程團隊的綜合介紹。面試人員將會詢問一些你