原创 Ubuntu12.10部署Spark0.9.0

Spark是由加州大學伯克利分校的AMP實驗室開發的類似於Hadoop的開源集羣計算環境,Spark將中間數據存放於內存中,比較適合於迭代式計算,應用於機器學習以及數據挖掘中,下面介紹一下我的部署過程,不保證適合於所有人的情況。 1 環境

原创 Linux下非Root用戶解決ImportError: No module named bz2

       最近在學習word2vec的內容,並且發現了Python版本的實現代碼gensim,在使用gensim進行測試的時候提示ImportError: No module named bz2。需要安裝bz2,但是我所使用的Linu

原创 導出Excel時出現錯誤 java.lang.IllegalStateException: getOutputStream() has already been called

今天在做Excel導出處理,在出現保存對話框選擇保存的時候控制檯出現瞭如下的錯誤: java.lang.IllegalStateException: getOutputStream() has already been called fo

原创 500萬條微博數據來源分析

最近項目不是特別忙,想做一些微博方面的分析和處理工作,如果自己現爬取微博數據,積累數據比較慢,恰好看到北理工張華平老師分享的500萬條微博數據,直接借用他的數據分析。下載地址是:http://www.nlpir.org/?action-v

原创 Linux下文件解壓命令彙總

經常在Linux下進行文件解壓和壓縮的操作,不同類型的文件老是忘記命令,在此做一下彙總以備不時之需,內容來源於網絡資料整理。 .tar  解包:tar xvf FileName.tar 打包:tar cvf FileName.tar D

原创 Linux下CRF++安裝工作

在平時工作中經常用到條件隨機場(CRF)進行任務處理,比如做一些標註工作和命名實體識別工作。自己比較常用的工具就是CRF++。下載地址爲:https://code.google.com/p/crfpp/(此下載地址已不可用)。官網地址爲:

原创 微軟LUIS語義理解服務介紹

1.LUIS概述 LUIS(Language Understanding Intelligent Services)是微軟新近推出了的的語義理解服務,可以方便用戶進行API調用,創建自己場景的語義理解服務,網址爲https://www.l