原创 Ubuntu Server 12.10下安裝以及配置Git

系統環境爲Ubuntu12.10. 先查看系統是否已經默認安裝Git,輸入命令  git --version若出現如下圖所示,則說明當前系統未安裝Git,則進行手動安裝。 根據提示命令行中手動輸入  apt-get install

原创 採用Stanford CoreNLP實現英文單詞詞形還原

最近有個小的任務,根據英文單詞的過去分詞或現在分詞或複數形式獲取詞語的原形,本來我的思路是:對於不規則變化的詞語,建立不規則詞表,直接從詞表中查詢;對於規則的詞形變化,自己寫規則進行還原。後來發現有些變化涉及到單詞的發音,如重讀閉音節要雙

原创 Java編譯時類型與運行時類型以及重載和覆蓋方法選擇

      首先來看看Java中的編譯時類型與運行時類型。編譯時類型由聲明該變量時使用的類型決定,運行時類型由實際賦給該變量的對象決定。如果編譯時類型和運行時類型不一致,會出現所謂的多態。因爲子類其實是一種特殊的父類,因此java允許把一

原创 基於條件隨機場(CRF)的組織機構實體識別

組織機構實體主要指企事業單位、公司、組織、網站等。我的主要是從文本中識別出組織機構實體名稱來。鑑於條件隨機場在序列標註方面的優勢,以及處理詞語特徵包括上下文環境特徵方面,這次工作採用了條件隨機場,具體工具爲CRF++。 1.語料預處理 採

原创 常用分詞方法總結分析

最近對自然語言處理中常見任務的方法做了一下整理總結,並對不同方法做了一些對比分析,資料主要來源於網絡以及相關的論文。 1.中文分詞 中文句子是由字組成的連續字符串。爲了理解中文語義,首先需要將句子劃分爲以詞爲基本單位的詞串,這就是中文

原创 問題求助:Java開發Spark Standalone出現MojoExecutionException,InvocationTargetException,OutOfMemoryError錯誤

最近在學Spark開發,是調用的Java API開發的Standalone程序,Spark版本爲0.9.1,Scala爲2.10.3,JDK爲1.7,分佈式環境爲一臺Master、三臺Worker。採用Maven構建項目,Maven版本爲

原创 Spark下實現LDA+SVM的文本分類處理

最新發布的Spark1.3.1版本中已經實現了LDA的算法,並且以前實現過LDA+SVM進行文本分類的處理程序,藉此機會想將程序改爲Spark的分佈式,Spark已經支持SVM和LDA算法。Spark的環境配置和安裝可參考我以前的博客ht

原创 一路歷程--我的2014年終總結

       2014年剛剛過去,2015年翹首而來,回顧2014年有很多感想和收穫,總結一下自己的得失,希望新的一年能夠做的更好。 1. 14年的回顧 1.1 工作方面        在工程項目方面,自己負責了一個項目,包括前期的需

原创 Ubuntu 12.10配置SSH無密碼登錄

在使用Spark進行分佈式的應用,每次啓動主機上面的服務都需要輸入從機上的密碼,太費事了,試着做了一下SSH無密碼的配置,系統是Ubuntu 12.10. 首先需要生成公鑰和私鑰對,終端中輸入命令。 ssh-keygen -t rsa之

原创 Scala開發環境搭建

Scala的開發環境有兩種,一種是Scala IDE,另一種是在Eclipse中增加插件,下面分別簡單描述搭建過程。 系統版本:Ubuntu 12.10 Scala版本:2.10.3 Eclipse版本:Kepler IDE開發 首先下載

原创 Eclipse Kepler更改註釋字體大小

前段時間安裝了Eclipse Kepler,安裝以後明顯感覺代碼字體較小,尤其是註釋中的中文字體。通過查找資料找到了一種方法,試了一下感覺效果不錯,特此記錄一下。 先看一下更改之前的默認字體顯示。 註釋之中的文字內容明顯感覺較小。 選擇

原创 Python爬取豆瓣電影

前幾天做了一個爬取豆瓣Top250電影的爬蟲,在爬取了豆瓣Top250的電影后,想試一試根據電影類別爬取所有的豆瓣電影,基本的原理是想通的。代碼採用Python,摳取頁面內容採用Beautiful Soup。 1.豆瓣電影分析 以豆瓣愛情

原创 Ubuntu 12.10 Server VNC文件配置

前面的VNC安裝的步驟與Ubuntu Server 12.04安裝桌面環境以及配置VNC裏介紹的內容相同,區別在於最終的VNC的配置。 編輯VNC的配置文件 vim xstartup完整的配置信息如下所示: #!/bin/sh # Un

原创 Ubuntu下root帳號使用Chrome

       在windows下一直習慣了使用Chrome,最近開始使用了Ubuntu 12.10,在上面安裝了Chrome,但卻提示root賬戶無法使用。於是上網查了一下,把問題解決了,在這裏記錄一下,以做備忘。         進入/

原创 Ubuntu 12.10下解壓文件名稱亂碼的問題解決

今天在Ubuntu12.10中解壓windows中壓縮的文件夾,解壓以後發現文件名稱均爲亂碼,而裏面的內容沒有影響,查找了一下解決方法。windows下默認編碼是GBK,而Ubuntu下默認的編碼是UTF-8,所以windows下壓縮的問