原创 Hive中case-when的應用注意空行以及結合聚合函數

--(1)建表 create table cf_tmp.lst_work_wifi_test( wifi_name string, last_date string, wifi_imei_cnt int ); --(2)插入數據 in

原创 beeline跑出來的文件沒有數據(這裏的原因是跑出來的數據量比較大)

beeline --incremental=true -f test.sql (感謝xianling)

原创 $HADOOP_PREFIX/sbin/start-dfs.sh 啓動失敗,卡在node2: starting datanode, logging to ……

這個問題困擾了很久,首先今天細細看了一下操作細節:Hadoop + Hive + Spark 完整安裝攻略 但是一直卡在這裏: #啓動 Hdfs $HADOOP_PREFIX/sbin/start-dfs.sh 如上圖:會在 no

原创 Python3安裝geohash,pip成功但是import失敗

1. 之前一直沒有配置python包的環境變量,主要參考自這篇文章:pip裝了一個包,但是python裏Import的時候找不到怎麼辦? ceiec@tf:~$ pip install matplotlib #看一下返回的路徑如下: R

原创 neo4j運行圖算法報了java.lang.NoClassDefFoundError錯誤

學習了這麼久才第一次寫一篇和neo4j有關的文章。 今天更新了一下NW的neo4j版本,運行algo.unionfind卻報了以下錯誤: 目前問題還在解決中。

原创 hive之regexp_replace函數、split函數的正則

Hive中,regexp_replace函數的第2個參數是正則表達式,第3個參數是字符串 select split(regexp_replace(data,'\\},\\{','}||{'),'\\|\\|')[0]as test

原创 Mac下使用rz、sz遠程上傳下載文件的配置記錄

本文轉載自Mac下使用rz、sz遠程上傳下載文件的配置記錄。 rz、sz是linux系統上傳和下載文件的工具,非常好用!需要注意的是:單獨使用rz進行上傳文件會有兩個問題:上傳中斷、上傳文件變化(md5不同),解決辦法是上傳是用rz -b

原创 zsh: command not found解決方法:配置環境變量

今天犯了一個愚蠢的錯誤,按這個頁面操作來配置https://blog.csdn.net/chinawangfei/article/details/80722882(這裏感謝mengmeng),其中 2.下載zmoden腳本  cho

原创 hive之正則表達式函數

以下摘自:regexp正則表達式:提取目標內容 在hive環境中相關的函數有如下三個: regexp :主要用在where子句中,用來選擇內容 regexp_extract :用在select 子句中,用來從目標內容中提取指定樣式內容

原创 hive之substr函數

select case when int(substr(time,1,2))<05 then 1 when int(substr(time,1,2))>=05 and int(substr(time,1,2))<12 then 2

原创 獲取某個目錄下符合條件的文件名稱列表

這裏感謝ajiao。 import os allfiles = os.listdir('/Users/dakai_taozi/Downloads/') filelist = [] for item in allfiles: if

原创 pandas生成時間區間

主要用到函數pd.data_range https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html pd.date_range(st

原创 shell中的split

http://man.linuxde.net/split    

原创 pandas的apply函數作用於多列

import pandas as pd import numpy as np table = pd.DataFrame({'cnt1':[1,2,np.nan,4,np.nan,6], 'c

原创 將字符串轉化爲字典

用eval函數或者 json.loads https://segmentfault.com/q/1010000000174694