原创 hive1.2.2+hadoop2.7.3導入米騎測試日誌以及數據優化(五)
Hive是hadoop連接數據庫的一個組件.是一個數據倉庫,提供了Hadoop類sql 的增,刪,改,查. hive的表一般跟hdfs路徑下的文件對應.hive 的常用命令如下: 啓動: ./bin/hive shell 查看所有表:
原创 java python之間數據交互(使用jython)
最近有個功能需要java與python之間的數據交互,java需要把參數傳給python,然後python計算的結果返回給java.於是就寫了一個工具類.首先,maven 需要加載jython的依賴.工具類代碼如下:import java
原创 安裝流行腳本編輯器(jupyter notebook)流程
jupyter notebook是一個流行的輕量的在線代碼編輯器,可支持幾十種程序語言. jupyter notebook 功能也很豐富,做文檔,數據科學分析,計算都非常方便. jupyter notebook在window|
原创 spark查詢任意字段,並使用dataframe輸出結果
在寫spark程序中,查詢csv文件中某個字段,一般是這樣的寫法: **方法(1),**直接使用dataframe 查詢 val df = sqlContext.read .format("com.databricks.s
原创 hive對電商用戶訂單行爲特徵分析(二)
今天用hive查詢用戶日誌表.這是日誌表的格式: user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province 328
原创 hadoop進程之間的對應關係和相關概念
hadoop由於是應用於集羣,所以進程比較多,且主從服務器上的進程並不完全一樣. namenode 和 jobtracker屬於master, datanode 和 tasktracker屬於slave . SecondaryNameNo
原创 spark對電商用戶訂單行爲特徵分析(一)
最近在整理spark技術的應用,覺得 行爲特徵歸類, 相似產品或相似功能推薦 這塊比較熱門. 網上發現一個網上大數據實驗室,是廈門大學建立的一個網站,發佈一些大數據的知識.其中有一個案例,叫 "淘寶雙11數據分析與預測課程案例" ,我就用
原创 hbase安裝
安裝hbase要注意版本兼容性.特別Hadoop,hive,hbase 三者如果都要集成的話,三者的版本要對的上.一般是版本越新越好,本文使用的是1.2.6版本. (1)配置hosts (2)下載解壓安裝包 (3)修改 hbase-e
原创 用ant自動compile|run|package spark程序
前段時間,需要寫一個用戶在前端編輯代碼,後臺自動生成scala程序的例子.其功能類似與web在線寫代碼,在線執行,出結果.一開始,不知從何下手,經同事提醒,可以用ant來自動編譯程序,再結合sh腳本執行新的scala 編譯後的程序
原创 win10+intelij 開發spark程序(一)
(1)下載安裝intelij IDEA.要community那種的. (2)安裝完成後,打開首頁,會提示有選擇各種不同的插件,爲避免麻煩,先默認都選吧(個人按需選擇),其中 scala 和sbt 是必須要選擇安裝的. (3)新建sca
原创 hadoop2.7.3清洗服務器訪問日誌之partitioner的學習和應用(六)
服務器的訪問日誌之所以需要清洗,原因有很多,通常日誌的格式,日誌的生成周期,用戶訪問的來源等等都是必要的原因.比如,本人就遇到由於服務器的訪問平臺不同,所以,需要把APP端,web端,h5端的訪問日誌歸爲3類,然後各自生成日誌文件. 這裏
原创 spark1.5.2 spark-shell報錯:java.util.concurrent.RejectedExecutionException
用spark-shell啓動spark時,報以下錯誤: 17/11/17 14:04:36 WARN metrics.MetricsSystem: Using default name DAGScheduler for sourc
原创 使用Spark rdd 開發spark程序
文章目錄1.常用的rddrdd的輸入和輸出,scala版,java版每個rdd函數的使用場景特殊rdd的使用選擇reduceByKey,groupByKey,的使用選擇collect,count的使用選擇總結 1.常用的rdd
原创 Java與Python之間使用jython工具類實現數據交互
今天小編就爲大家分享一篇關於Java與Python之間使用jython工具類實現數據交互,小編覺得內容挺不錯的,現在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧 最近有個功能需要java與pyth
原创 ThoughtWorks筆試題大致解題思路總結
收到ThoughtWorks的面試邀請,HR電話初面後,說是要做題。 給發了3道題,任選一道。 ThoughtWorks是什麼樣的公司呢?外企,聽說很牛,什麼“敏捷開發模式”就是那公司 首創的概念。出的題目也有些奇怪,選取第一道如下: