原创 R語言之數據處理難題的一套解決方案

用R進行數據處理 來源:現在有這樣一些數據:期末考試結束後,學生各科成績出來了,如何對學生進行評級並將評級結果排序展示?通過以下用R來實現的解決方案,不僅可以學習到R語法相關知識,還能學習到數據處理的思路,而後者明顯讓我們受益更多

原创 在linux環境下自動執行python腳本

說明:此文針對需要用hive來查詢長時間數據的人員,而且是需要按照天來輸出查詢數據,考慮到如果查詢多天的,數據量過大會造成集羣擁堵,所以按天輸出,最終再做彙總。 需求來源:如果你每天接觸的都是日誌類數據,日誌每天的產生量都非常龐

原创 hive join操作

1. 只支持相等JOIN。 2. 多表連接當使用不同的列進行JOIN時,會產生多個MR作業。 3. 最後的表的數據是從流中讀取,而前面的會在內存中緩存,因此最好把最大的表放在最後。 SELECT /*+ STREAMTABLE(

原创 mysql或者hive實現分層向下統計功能

原因:作爲一名數據人員,經常會碰到類似這樣的表結構: city_id city_code city_name parent_id citylevel 1 中國 中國 0 0 2 110000 北京市

原创 日誌檢測活動效果 如何將用戶訪問路徑串起來(session id)

一個很實用的場景:某業務藉助於其他平臺投放了一些鏈接,用戶點了此鏈接後,會跳轉到自家產品的頁面,比如評價頁面,如果用戶不通過外部鏈接進入頁面,打開自家的產品,也可以進入到評價頁面,不管用戶從何而來,評價頁面的url是不會變化的,如何純粹衡

原创 kylin使用過程中需要注意的點

一、維表 事實表中多個維度字段不能關聯同一張維表。如果關聯同一張表的情況,可通過視圖區別開。 二、維表字段    不同維表中的字段不能同名,建議加上表名做前綴。字段的中文描述應區分開,比如city_name,根據字段的不同用途可分

原创 hive 解析日誌常用的幾個函數

大家都知道日誌的形式偏非結構化,有很多特殊的字符等等,現總結一些日誌中常用或者易用到的函數便於日誌數據的提取、解析。 1.get_json_object,底層日誌經常會被儲存爲json字符串的形式,如果想獲得各個維度的值,往往需要這個函

原创 HiveQL:數據定義

一.數據庫部分 1.創建數據庫: create database dw; 或者create database if not exists dw; create database dw comment "this is a test da

原创 python數據結構

python有四種數據結構,分別是列表、元組、字典和集合。 一.列表 1.列表最顯著的特徵是: 1.1列表中的每一個元素都是可變的 1.2列表中的元素都是有序的,每個元素都有一個位置

原创 程輯包‘installr’是用R版本3.3.2 來建造的解決方法

用R的時候會碰到這種情形:install.packages(“RODBC”)不會報錯但是install成功後執行這個語句時會報錯:library(RODBC),顯示錯誤如下:程輯包‘installr’是用R版本3.3.2 來建造的 不

原创 數據傾斜及處理方案

1.什麼是數據傾斜 大家可能會發現這樣一種現象:在執行hive查詢的時候,map早已經100%了,而reduce也早早到了90% +,但是reduce可能會一連出現多個99%,而且遲遲停在99%,不再向下走,這是數據傾斜最常見的表現。

原创 R數據導入方法及訪問數據庫管理系統

一.導入數據方式 1.使用鍵盤輸入數據 #首先創建一個空的數據框,然後用edit,R將會彈出一個數據編輯窗口 > mydata<-data.frame(age=numeric(0),gender=character(0),weight=

原创 kylin維度優化指南

先說一下維度表需要遵循的規範: 維表需要有code和name,比如:city_code city_namecode字段的類型最好使用整數,這樣可以加快kylin的構建速度和查詢速度如果維表是層級維表,比如是國家、省份、城市的層級需要

原创 R數據結構

R數據結構 1.向量:同一向量中無法混雜不同模式的數據 a<-c(1,2,3,4,5) b<-c("a","b","c","d") 2.矩陣:二維數組,同樣要求數據類型一致 > y<-matrix(1:20,nrow=5,ncol=4)

原创 用python做詞頻統計

假設有一個本地的txt文件,想對其進行詞頻統計,可以這樣寫: import time path='C:\\Users\\zhangxiaomei\\Desktop\\Walden.txt' with open(path,'r') as t