原创 機器學習集成學習算法——boosting系列

本篇基於機器學習(edt:周志華)的集成學習章節,衍生學習多種boosting集成學習算法。集成學習(ensemblelearning)通過構建並結合多個學習器來完成學習任務,有時也被稱爲多分類器系統(multi-calssifiersy

原创 操作系統面試題

操作系統常見面試題總結  1、什麼是進程(Process)和線程(Thread)?有何區別?   進程是具有一定獨立功能的程序關於某個數據集合上的一次運行活動,進程是系統進行資源分配和調度的一個獨立單位。線程是進程的一個實體,是CP

原创 Spark MLlib學習(一)數據類型 Data Types

MLlib是spark的機器學習庫,有常用學習算法和實用工具,包括分類、迴歸、聚類、協同過濾、降維等。分爲兩個部分: spark.mllib 基於RDDs的原有API spark.ml 提供了基於DataFrame

原创 Spark MLlib學習(二)——分類和迴歸

MLlib支持多種分類方法,如二分類、多分類和迴歸分析等。 問題類型 支持的方法 二分類 線

原创 Spark 集羣與數據集RDD

Spark是一個分佈式計算框架,對資源的調度,任務的提交跟蹤、節點間的通信及數據並行處理的內在操作都進行了抽象。 四種運行模式: 本地單機模式:所有spark進程都運行在同一個JVM中 集羣單機模式:

原创 Ubuntu12.04搭建Hadoop環境

一. 安裝Ubuntu 12.04; 二. 在Ubuntu下創建hadoop用戶組和用戶; 1. 創建hadoop用戶組: sudo addgroup hadoop  如圖: 2. 創建hadoop用戶: sudo addu

原创 Hadoop2.2.0單機僞分佈式安裝配置

1、jdk版本的安裝 2、ssh安裝 (參見轉載的Hadoop僞分佈式安裝中介紹的http://blog.csdn.net/myy1012010626/article/details/20311985 http://blog.csdn.n

原创 Spark SQL和DataFrame的學習總結

1、DataFrame 一個以命名列組織的分佈式數據集。概念上相當於關係數據庫中一張表或在R / Python中的data frame數據結構,但DataFrame有豐富的優化。在spark 1.3之前,核心的新類型爲RD

原创 MapReduce工作原理詳解

部分轉載自:http://weixiaolu.iteye.com/blog/1474172 1.MapReduce作業運行流程 下面貼出我用visio2010畫出的流程示意圖:   流程分析: 1.在客戶端啓動一個作業

原创 Linux——eclipse下Hadoop2.2.0的安裝配置

1.安裝環境    系統:ubuntu 13.10    hadoop版本:2.2.0    eclipse版本:indigo 2.到hadoop2.2插件下載 下載插件解壓放到eclipse的plugin目錄下,重啓eclip

原创 結構體字節對齊

      結構體字節對齊       在用sizeof運算符求算某結構體所佔空間時,並不是簡單地將結構體中所有元素各自佔的空間相加,這裏涉及到內存字節對齊的問題。從理論上講,對於任何 變量的訪問都可以從任何地址開始訪問,但是事實上不

原创 視頻數據挖掘總體概述

轉載自:http://www.guigu.org/news/guiguvip/2012121413290.html 1.1視頻數據挖掘   綜合與視頻數據挖掘有關的各類文獻,一般認爲,視頻數據挖掘技術是對所挖掘的視頻數據庫中的數據不進行

原创 MATLAB R2013a下libsvm工具箱的安裝

首先,下載libsvm安裝包,http://download.csdn.net/detail/wzh_xwjh/5648969, 解壓放到自己的目錄 ,如D:/MATLAB /R2013a/toolbox 進入MATLAB命令窗口,將路

原创 推薦幾款優秀的開源數據挖掘工具

IDMer:本文只對幾種流行的開源數據挖掘平臺進行了檢視,比如Weka和R等。如果您想找尋更多的開源數據挖掘軟件,可以到KDnuggets和Open Directory上查看。爲了評測這些軟件,我們用了UCI Machine Lear

原创 大數據時代給視頻監控帶來的革新

       視頻監控業務正是一個典型的數據依賴型業務,依靠數據說話。可以說,大數據與視頻監控業務有着天然的結合。綜合來看,大數據與視頻監控業務的結合主要體現在“存”、“看”、“用”上。   “閃存”:如果類比水庫蓄水的方式,典型的網絡視