原创 數據分析平臺解析

隨着互聯網、移動互聯網和物聯網的發展,誰也無法否認,我們已經切實地迎來了一個海量數據的時代,數據調查公司IDC預計2011年的數據總量將達到1.8萬億GB,對這些海量數據的分析已經成爲一個非常重要且緊迫的需求。 作爲一家互聯網數據分析公司

原创 Hadoop-* 自動安裝腳本

#!/bin/bash #validate user or group validate() { if [ 'id -u' == 0 ];then echo "must not be root!" exit 0 else

原创 海量數據處理算法舉例

1、 海量日誌數據,提取出某日訪問百度次數最多的那個IP。 首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射爲

原创 Win7下硬盤安裝Ubuntu12.04雙系統

一、準備工作(在win7下操作完成) 1.從官網www.ubuntu.com上下載鏡像文件,大小接近700M。最新版本是 12.04 2.下載並安裝easybcd。 3.騰出一個空盤,保持在(30G以上的空間,需要將重要的資料進行備份

原创 Prismatic:用機器學習分析用戶興趣只需10秒鐘

摘要:斯坦福大學和伯克利的四位年輕的計算機科學博士創立了Prismatic。他們不僅是科學家同時也是實幹家,他們放棄了Hadoop等重量級框架,通過過程化語言的深度使用,簡單並且高效的實現了大數據的處理,高度併發,實時等優異的特性。 這篇

原创 linux 用戶及用戶組管理

創建組: $sudo addgroup ccache 創建用戶: $sudo useradd ccache -g ccache -M 創新wfz用戶並創建HOME目錄,指定用戶組爲ccache $sudo useradd wfz -g c

原创 「譯」JavaScript 的 MVC 模式

本文介紹了模型-視圖-控制器模式在 JavaScript 中的實現。 我喜歡 JavaScript,因爲它是在世界上最靈活的語言之一。在 JavaScript 中,程序員可以根據自己的口味選擇編程風格:面向過程或面向對象。如果你是一個重口

原创 vim常用命令

點贊 收藏 分享 文章舉報 noobzc1 發佈了14 篇原創文章 · 獲贊 11 · 訪問量 4萬+ 私信 關注

原创 eclipse搭建hadoop開發環境

一、安裝準備 1、JDK版本:jdk1.7.0 2、hadoop版本:hadoop-1.1.1(hadoop-1.1.1.tar.gz) 3、eclipse版本:Eclipse Java EE IDE for Web Developers

原创 Ext-Tree 設計與實現

在項目開發中,我們會經常用到一種數據結構—樹。”樹”這種數據結構名稱的靈感完全來自自然界的樹,在計算機中,樹是倒着長的,根在上,葉子在下。 下面來介紹下,在使用ExtJs進行實際項目開發過程中,怎樣才能構建一顆樹,其中分爲靜態樹和動態異步

原创 基於Map/Reduce的頻繁項集挖掘

雲計算是分佈式計算技術的一種,其最基本的概念是透過網絡將龐大的計算處理程序自動拆成無數個較小的子程序,再交由多服務崧所組成的龐大系統經搜尋、計算分析之後將處理結果回傳給用戶。雲計算具有超大規模、虛擬化、高可靠性、高可擴展性、通用性等特點

原创 倒排索引技術

倒排索引源於實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由於不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱爲倒排索引(inverted index)。帶有倒排索引的

原创 基於Apache的反向代理服務器

衆所周知Apache是目前最優秀的HTTP服務器。實際上它不僅能當作服務器使用,也能夠被用來架設代理服務器。本文就如何使用Apache架設HTTP代理服務器進行說明。 本文將基於Win32版的Apache 2.0.47進行說明。以前的Ap

原创 使用json-lib.jar包創建JsonObject

基於json-lib.jar包Json實例程序1.從頭或者從零開始,創建一個JSONObject(Creating a JSONObject from scratch) 實例1:    JSONObject jsonObject = n

原创 HashMap的實現原理

在很多應用中,都要用到一種動態集合結構。例如,計算機程序設計語言的編譯程序需要維護一個符號表,其中元素的關鍵字值爲任意字符串,與語言中的標示符對應。