原创 Hive筆記十一:查詢進階

通過Hive提供的order by子句可以讓最終的輸出結果整體有序。但是因爲Hive是基於Hadoop之上的,要生成這種整體有序的結果,就必須強迫Hadoop只利用一個Reduce來完成處理。這種方式的副作用就是回降低效率。 如果你不

原创 Hive筆記十二:實例

背景 假設有一個學生各門課的成績的表單,應用hive取出每科成績前100名的學生成績。 這個就是典型在分組取Top N的需求。   解決思路 對於取出每科成績前100名的學生成績,針對學生成績表,根據學科,成績做order b

原创 Hbase筆記三:Hbase基本命令

下面我們看看HBase Shell的一些基本操作命令,我列出了幾個常用的HBase Shell命令,如下: 名稱 命令表達式 創建表 create '表名稱', '列名稱1','列名稱2','列名稱N' 添

原创 Hbase筆記一:瞭解Hbase

 Hbase: 邏輯視圖   邏輯上看,HBase以表的形式存儲數據。表有行和列組成。列劃分爲若干個列族(row family) Row Key column-family1 column-family2 column-fa

原创 Flume-ng配置

1)簡介 Flume是一個分佈式、可靠、和高可用的海量日誌聚合的系統,支持在系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。 設計目標: (1) 可靠性 當節點出

原创 機器學習算法學習二:多元線性迴歸

多元線性迴歸 能用office07發佈簡直是太好了,這下子省了很多事。 1、多元線性迴歸模型 假定被解釋變量與多個解釋變量之間具有線性關係,是解釋變量的多元線性函數,稱爲多元線性迴歸模型。即  (1.1) 其中爲被解釋變量,爲個解釋

原创 AKKA示例教程

寫併發程序很難。程序員不得不處理線程、鎖和競態條件等等,這個過程很容易出錯,而且會導致程序代碼難以閱讀、測試和維護。 所以,很多人不傾向於使用多線程編程。取而代之的是,他們使用單線程進程(譯者注:只含有一個線程的進程),依賴外部服務(

原创 面試:微軟等公司100道面試題--2010

作者:July、2010年12月6日。 更新:現今,這100題的答案已經全部整理出來了,微軟面試100題2010年版全部答案集錦:http://blog.csdn.net/v_july_v/article/details/6870251

原创 Storm:storm架構

tuple:表示流中一個基本的處理單元,可以包括多個field,每個filed表示一個屬性 topology:一個拓撲是一個個計算節點組成的圖,每個節點包換處理的邏輯,節點之間的連線表示數據流動的方向 spout:表示一個流的源頭,

原创 機器學習算法學習四:Canopy Clustering

一、基本思想      1、基於Canopy Method的聚類算法將聚類過程分爲兩個階段       Stage1、聚類最耗費計算的地方是計算對象相似性的時候,Canopy Method在第一階段選擇簡單、計算代價較低的方法計算對

原创 機器學習算法學習三:K-means聚類

一、概念介紹       K-means算法是硬聚類算法,是典型的局域原型的目標函數聚類方法的代表,它是數據點到原型的某種距離作爲優化的目標函數,利用函數求極值的方法得到迭代運算的調整規則。K-means算法以歐式距離作爲相似度測度,

原创 Spark Streaming:初步瞭解

問題導讀:1.什麼是Spark Streaming?2.Spark Streaming可以接受那些數據源?3.Dstream,我們可以進行哪兩種操作?參考:Spark:一個高效的分佈式計算系統 在看spark Streaming,我們需要

原创 機器學習:算法簡單梳理

前言:   找工作時(IT行業),除了常見的軟件開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/數據挖掘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智能沒達到

原创 多線程:線程池

Java線程池使用說明 一簡介 線程的使用在java中佔有極其重要的地位,在jdk1.4極其之前的jdk版本中,關於線程池的使用是極其簡陋的。在jdk1.5之後這一情況有了很大的改觀。Jdk1.5之後加入了java.util.concur

原创 R語言入門

前言:關於R 在R的官方教程裏是這麼給R下註解的:一個數據分析和圖形顯示的程序設計環境(A system for data analysis and visualization which is built based on S la