原创 clojure學習筆記(更新中)

在我們開始學習clojure語言之前,先選一個自己喜歡的ide吧,本人在嘗試intellij失敗後果斷回到了eclipse的懷抱中(對於有強迫症的同學,可以搜下xumingming大俠的intellij leiningen的文章)。插件的

原创 python學習筆記(二)更新中

數據結構:序列 1。python包含6中內建的序列:列表,元組,字符串,Unicode字符串,buffer對象,xrang對象。 序列是一種數據結構,它包含的元素都進行了編號(從0開始)。典型的序列包括列表、字符串、元組。其中列表是可變的

原创 python學習筆記(一)

一 基本概念 1. 常量 動態語言,可在運行中隨時改變變量類型 可強制類型轉換 >>>a=1.8 >>>b=int(a) >>>print b           #並不是四捨五入 1 2. 數 整數 長整數 浮點數 複數 0.0+

原创 clojure開發利器-light table安裝使用

一 安裝JDK 二 安裝leiningen,配置環境變量。 將leiningen的bin路徑追加到Path中:C:\Users\ebaoluo\.lein\bin leiningen的官網下載地址:http://leiningen-win

原创 調試spark源碼

https://stackoverflow.com/questions/33311794/import-spark-source-code-into-intellj-build-error-not-found-type-sparkflum

原创 在eclipse中開發hadoop MapReduce

一.安裝hadoop for eclipse的插件,注意:插件版本要和hadoop版本一致。 下載:hadoop-eclipse-plugin-2.5.2.jar http://download.csdn.net/detail/tonda

原创 免匙SSH登錄失敗問題(非常規)

問題描述: 上週給公司搭建大數據平臺,選取三臺機器,安裝配置一切順利。後來發現/home目錄的掛載盤容量不夠用,所以就擴容了,在擴容之前將/home/hadoop文件夾複製到其他地方,擴容後再複製回來,現在問題來了,hadoop文件夾遷移

原创 MySql安裝及集成Hive手冊

版本:my5.6.22-1.linux64 一.安裝Mysql 1 判斷centos上是否有安裝,執行命令rpm -qa |grep mysql 2 如果已經安裝,需要刪除原有的,防止衝突,執行命令 $ rpm -e  mysql-li

原创 實時計算,流數據處理系統簡介與簡單分析

實時計算,流數據處理系統簡介與簡單分析 一.   實時計算的概念 實時計算一般都是針對海量數據進行的,一般要求爲秒級。 實時計算主要分爲兩塊:數據的實時入庫、數據的實時計算。 主要應用的場景: 1) 數據源是實時的不間斷的,要求用戶的響應

原创 spark常用RDD介紹及Demo

Transformation: map(func): Return a new distributed dataset formed by passing each element of the source through a fun

原创 Hive安裝手冊

HIVE版本:0.14.0 1.解壓並重命名hive 把apache-hive-0.14.0.bin.tar複製到/usr/hadoop/ #cd /home/hadoop/ #tar -xvf apache-hive-0.14.0.b

原创 mapreduce實現倒排索引

目的: 產生一個數據集的索引以便提供更快的搜索或數據豐富能力。 動機: 對大的數據集建立一個關鍵字的索引,通常可以方便通過指定關鍵字搜索到其包含特定值的對應記錄。儘管創建倒排索引的過程需要預先進行額外的處理,但花費時間做預處理可以極大地

原创 hive on spark on yarn

最近不是很忙就寫篇關於spark在實際中的應用 我目前帶領團隊給幾家銀行做數據分析相關工作,其中一家使用的是spark,一家使用的是impala,還有一家用的是hadoop。今天重點就來說說spark吧。 由於設計商業機密,我重新簡單的畫

原创 MapReduce之自定義partitioner

partitioner定義: partitioner的作用是將mapper(如果使用了combiner的話就是combiner)輸出的key/value拆分爲分片(shard),每個reducer對應一個分片。默認情況下,partitio

原创 es通過JDBC導數測試

硬件環境: 1、mac 10.12 2、8G內存、256G SSD 3、2.4GHz I5 測試數據 50G CSV格式 每行6個字段 測試一:使用es默認配置 es版本2.3.4 es-jdbc版本2.3.4.0 通過e