原创 hive1.2.2+hadoop2.7.3導入米騎測試日誌以及數據優化(五)

Hive是hadoop連接數據庫的一個組件.是一個數據倉庫,提供了Hadoop類sql 的增,刪,改,查. hive的表一般跟hdfs路徑下的文件對應.hive 的常用命令如下: 啓動: ./bin/hive shell 查看所有表:

原创 java python之間數據交互(使用jython)

最近有個功能需要java與python之間的數據交互,java需要把參數傳給python,然後python計算的結果返回給java.於是就寫了一個工具類.首先,maven 需要加載jython的依賴.工具類代碼如下:import java

原创 安裝流行腳本編輯器(jupyter notebook)流程

jupyter notebook是一個流行的輕量的在線代碼編輯器,可支持幾十種程序語言. jupyter notebook 功能也很豐富,做文檔,數據科學分析,計算都非常方便. jupyter notebook在window|

原创 spark查詢任意字段,並使用dataframe輸出結果

在寫spark程序中,查詢csv文件中某個字段,一般是這樣的寫法: **方法(1),**直接使用dataframe 查詢 val df = sqlContext.read .format("com.databricks.s

原创 hive對電商用戶訂單行爲特徵分析(二)

今天用hive查詢用戶日誌表.這是日誌表的格式: user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province 328

原创 hadoop進程之間的對應關係和相關概念

hadoop由於是應用於集羣,所以進程比較多,且主從服務器上的進程並不完全一樣. namenode 和 jobtracker屬於master, datanode 和 tasktracker屬於slave . SecondaryNameNo

原创 spark對電商用戶訂單行爲特徵分析(一)

最近在整理spark技術的應用,覺得 行爲特徵歸類, 相似產品或相似功能推薦 這塊比較熱門. 網上發現一個網上大數據實驗室,是廈門大學建立的一個網站,發佈一些大數據的知識.其中有一個案例,叫 "淘寶雙11數據分析與預測課程案例" ,我就用

原创 hbase安裝

安裝hbase要注意版本兼容性.特別Hadoop,hive,hbase 三者如果都要集成的話,三者的版本要對的上.一般是版本越新越好,本文使用的是1.2.6版本. (1)配置hosts (2)下載解壓安裝包 (3)修改 hbase-e

原创 用ant自動compile|run|package spark程序

前段時間,需要寫一個用戶在前端編輯代碼,後臺自動生成scala程序的例子.其功能類似與web在線寫代碼,在線執行,出結果.一開始,不知從何下手,經同事提醒,可以用ant來自動編譯程序,再結合sh腳本執行新的scala 編譯後的程序

原创 win10+intelij 開發spark程序(一)

(1)下載安裝intelij IDEA.要community那種的. (2)安裝完成後,打開首頁,會提示有選擇各種不同的插件,爲避免麻煩,先默認都選吧(個人按需選擇),其中 scala 和sbt 是必須要選擇安裝的. (3)新建sca

原创 hadoop2.7.3清洗服務器訪問日誌之partitioner的學習和應用(六)

服務器的訪問日誌之所以需要清洗,原因有很多,通常日誌的格式,日誌的生成周期,用戶訪問的來源等等都是必要的原因.比如,本人就遇到由於服務器的訪問平臺不同,所以,需要把APP端,web端,h5端的訪問日誌歸爲3類,然後各自生成日誌文件. 這裏

原创 spark1.5.2 spark-shell報錯:java.util.concurrent.RejectedExecutionException

用spark-shell啓動spark時,報以下錯誤: 17/11/17 14:04:36 WARN metrics.MetricsSystem: Using default name DAGScheduler for sourc

原创 使用Spark rdd 開發spark程序

文章目錄1.常用的rddrdd的輸入和輸出,scala版,java版每個rdd函數的使用場景特殊rdd的使用選擇reduceByKey,groupByKey,的使用選擇collect,count的使用選擇總結 1.常用的rdd

原创 Java與Python之間使用jython工具類實現數據交互

今天小編就爲大家分享一篇關於Java與Python之間使用jython工具類實現數據交互,小編覺得內容挺不錯的,現在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧 最近有個功能需要java與pyth

原创 ThoughtWorks筆試題大致解題思路總結

收到ThoughtWorks的面試邀請,HR電話初面後,說是要做題。 給發了3道題,任選一道。 ThoughtWorks是什麼樣的公司呢?外企,聽說很牛,什麼“敏捷開發模式”就是那公司 首創的概念。出的題目也有些奇怪,選取第一道如下: