原创 WordNet詞網研究6——之JWI(Java Wordnet Interface)WordNet Java接口

JWI (the MIT Java Wordnet Interface) is a Java library for interfacing with Wordnet. JWI supports access to Wordnet ve

原创 基於hadoop 網絡爬蟲

一。用hadoop作網絡爬蟲的原因 爬蟲程序的海量計算特性要求必須要用分佈式方式來實現。一般爬蟲爬取的是整個互聯網上的所有或部分數據,這個數據量一般是P byte級,至少也是T byte級,因此用分佈式的方式來獲取這是不二之選。在衆多

原创 數據庫中having 與where的區別

having 與where的共同點: having 和where都是用來篩選的 不同點: having是用來篩選組 where是用來篩選記錄 用having就一定要用group by連用 當用group by時不一定要用having

原创 MongoDB 安裝,主從配置

官方網站:http://www.mongodb.org/MongoDB 安裝,主從配置一 MongoDB 安裝 點擊(此處)摺疊或打開 [root@zabbix_server src]# wget http://fastdl.

原创 apache與tomcat的區別

Apache是一個web服務器環境程序,可以作爲web服務器使用。不過只支持靜態網頁,如(asp,php,cgi,jsp)等動態網頁的就顯得無能爲力。  引用 如果要在Apache環境下運行jsp 的話就需要一個解釋器來執行jsp網頁,

原创 alternatives命令用法

alternatives命令用法 alternatives是Linux下的一個功能強大的命令。只能在root權限下執行。如系統中有幾個命令功能十分類似,卻又不能隨意刪除,那麼可以用 alternatives 來指定一個全局的設置。

原创 ZIP壓縮算法詳細分析及解壓實例

轉自:http://blog.ithomer.net/2014/09/detailed-analysis-and-extract-the-zip-compression-algorithm-example/ 最近自己實現了一個ZIP壓

原创 線性探測法構造hash表

已知一組關鍵字爲(39,49,54,38,44,28,68,12,06,77),用除餘法構造散列函數,用線性探查法解決衝突構造這組關鍵字的散列表。   解答:爲了減少衝突,通常令裝填因子α<l。這裏關鍵字個數n=10,不妨取m=13,此時

原创 中文分詞技術

一、       爲什麼要進行中文分詞? 詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作爲自然分界符的,而漢語是以字爲基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。 Lu

原创 mongodb命令大全

成功啓動MongoDB後,再打開一個命令行窗口輸入mongo,就可以進行數據庫的一些操作。 輸入help可以看到基本操作命令: show dbs:顯示數據庫列表  show collections:顯示當前數據庫中的集合(類似關係數據庫

原创 System.exit(0)與System.exit(1)的區別

查看java.lang.System的源代碼,我們可以找到System.exit(status)這個方法的說明,代碼如下: /** * Terminates the currently running Java Vir

原创 mongodb 簡單操作

1、切換數據庫: use 數據庫名 2、向數據庫中插入數據: k={name:"123",age:20,sex:"male"} db.things.save(k) //這裏的things相當於mysql中的表名3、查詢數據: 1)、查

原创 http協議詳解

當今web程序的開發技術真是百家爭鳴,ASP.NET, PHP, JSP,Perl, AJAX 等等。 無論Web技術在未來如何發展,理解Web程序之間通信的基本協議相當重要, 因爲它讓我們理解了Web應用程序的內部工作. 本文將對HT

原创 文本特徵提取方法研究

文本特徵提取方法研究 一、課題背景概述 文本挖掘是一門交叉性學科,涉及數據挖掘、機器學習、模式識別、人工智能、統計學、計算機語言學、計算機網絡技術、信息學等多個領域。文本挖掘就是從大量的文檔中發現隱含知識和模式的一種方法和工具,它從數據挖

原创 linux組管理

首先了解一下 ***************** /etc/group文件當中每行的具體含義: eg:  sudo:x:27:jiangjian 1:組用戶名 2:密碼用x替代,真正的密碼在/etc/gshadow 3:用戶組I