原创 hive中的模糊匹配之like的用法

hive中的模糊匹配之like的用法 現在看一段Hsql,執行時會報錯嗎? select * from ods.ods_sjc_events_rt where event like '%OCR%' ; 答案是顯而易見的,這樣

原创 hive中的空值處理

hive中的空值處理 用Sqoop往MySQL同步數據時,由於hdfs存儲的數據中有null值或’’,導致同步數據失敗。主要是hive sql中的空值造成的,所以今天就說一下怎麼解決這個問題。 一.hive中空值分兩種 (1)NU

原创 MySQL FORMAT函數簡介

MySQL FORMAT函數簡介有時,您使用表達式或聚合函數(如AVG)來計算數據庫中的值,例如庫存週轉率,產品的平均價格,平均發票值等。 表達式的結果是十進制數,並帶有許多小數位。要格式化這些數字,您可以使用具有以下語法的FOR

原创 Linux系統中常用命令行命令、快捷鍵、創建長路徑的快捷鍵

Linux系統中常用命令行命令、快捷鍵、創建長路徑的快捷鍵 1.常用Linux命令: 1.1 文件和目錄: cd /home 進入 ‘/home’ 目錄 cd …

原创 技術分享:淺談滴滴派單算法

淺談滴滴派單算法 原創: 王犇 劉春陽 徐哲 滴滴技術 桔妹導讀:說到滴滴的派單算法,大家可能感覺到既神祕又好奇,從出租車揚召到司機在滴滴平臺搶單最後到平臺派單,大家今天的出行體驗已經發生了翻天覆地的變化,面對着每天數千萬的呼叫

原创 hive sql常用技巧

1.多行合併 多行合併常用於做區間統計,通過定義一定的金額區級,將上億的記錄降維爲不同區間內總數。概括來說就是多映射到一。典型場景:基於用戶交易天流水,計算每天不同金額段的金額筆數。 例如需要計算出交易額在0-100,100-2

原创 hive集羣中間(臨時)表定時清理shell腳本

hive集羣中間(臨時)表定時清理shell腳本 #!/bin/sh #hive集羣中間表定時清理腳本 databases="odb pdb" #hive集羣中所有庫庫名 stime=`date +%s` #記錄當前時間 for

原创 Linux設置定時任務(crontab)

Linux設置定時任務(crontab) 1.crontab命令概述 crontab命令用於設置週期性被執行的指令,並將其存放在/etc/crontab文件,以供之後讀取和執行。 cron系統調度進程,可以使用它在每天的非高峯負荷

原创 Java技術棧

Java技術棧 我要修仙!!!我要修仙!!!我要修仙!!!重要的事情說三遍!

原创 處理Tomcat日誌catalina.out日誌文件過大的問題

處理Tomcat日誌catalina.out日誌文件過大的問題 最近遇到一個Tomcat日誌catalina.out日誌文件過大的問題,現總結如下:本人用第二種方法解決問題,本人認爲第二種更簡單容易操作! 一、採用cronlolo

原创 MySQL:日期函數和時間函數的總結

一、MySQL 獲得當前日期時間 函數 1.1 獲得當前日期+時間(date + time)函數:now() mysql> select now(); ±--------------------+ | now()

原创 Python3安裝bs4報錯及解決方案

Python3安裝bs4報錯及解決方案 吐血分享!!! 學習網絡爬蟲的都知道,除了使用正則表達式以外,我們還會經常使用一種beautifulsoup的工具,這個工具很好的分析網頁結構,使得更好的爬取,但是使用beautifulsoup

原创 Kafka的安裝

Kafka的安裝 一、下載 下載地址: http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 二、安裝前提(zookeeper安裝) 參考h

原创 Kafka在zookeeper中的存儲

Kafka在zookeeper中的存儲 一、Kafka在zookeeper中存儲結構圖 二、分析 2.1 topic註冊信息 /brokers/topics/[topic] : 存儲某個topic的partitions所有分配信息

原创 Flume的配置方式

Flume的配置方式 一、單一代理流配置 1.1 官網介紹 http://flume.apache.org/FlumeUserGuide.html#avro-source 通過一個通道將來源和接收器鏈接。需要列出源,接收器和通道,爲給