原创 轉:hive中regexp_extract的用法總結

  hive中regexp_extract的用法總結 如: 1)  select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ; 得到的結果爲: itde 2)  select r

原创 sys.stdin讀取數據與for循環

#test.py import sys for eachline in sys.stdin:     line=eachline.strip().decode('utf-8') print(line) python3中使用sys

原创 Julia0.6.4 in jupyter notebook windows系統 環境配置

以下第1、2部分可以參考 julia簡易教程——安裝Julia+jupyter notebooks 1. 安裝Anaconda 這裏主要是爲了安裝jupyter notebook。 2. 安裝Julia 這裏Julia用了0.6.4的版本

原创 從某個目錄下的所有SQL腳本里搜索含有"app"的腳本

find ./ -name '*.sql'|xargs grep 'app'  

原创 keras之preprocessing.sequence.pad_sequences

學自python函數—序列預處理pad_sequences()序列填充 1.基本功能 2.參數padding padding: String, 'pre' or 'post': pad either before or after ea

原创 C語言基本語句

注意一定不要忘記分號。 最後一個輸出的語句最後最好加上換行符。 (1)double相比double,小數點後面允許的位數相對多一點,因此float相對省空間。 (2)注意,在給某個變量賦值前,一定要先定義這個變量。 e=0的原

原创 Mac打開Excel強制grant access

原文鏈接:https://support.office.com/en-us/article/excel-prompts-you-to-grant-access-to-files-and-then-h

原创 在Google Colab中直接使用Github中的內容

原文鏈接:https://medium.com/@steve7an/how-to-test-jupyter-notebook-from-github-via-google-colab-7dc4b9b

原创 Hive優化

原文鏈接:https://www.cnblogs.com/sandbank/p/6408762.html 本文主要參考文獻: 《Hive編程指南》 數據分析利器之hive優化十大原則 優化一:

原创 Get Started with PySpark and Jupyter Notebook in 3 Minutes

原文鏈接:https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f 在Jupyter Not

原创 item2設置滾動緩衝區行數

原文鏈接:https://365airsoft.com/zh-CN/questions/1576379/iterm2xiangshanggundonggengduo-zengjiagundonghu

原创 保留由C升到B再升到A的過程,但是若是由A變到C或者B,只保留A

select userid,level, time, first_value(time) OVER(PARTITION BY userid,level ORDER BY time) as firstTime,

原创 replace columns報code 1 from org.apache.hadoop.hive.ql.exec.DDLTask錯誤

目前找到的解決辦法是(這邊感謝xiaoxiao~): --先改fileformat爲textfile alter table table_name set fileformat textfile; --再repalce alter t

原创 hive中count distinct報code 2錯誤

原文鏈接:http://datavalley.github.io/2016/02/15/Hive%E4%B9%8BCOUNT-DISTINCT%E4%BC%98%E5%8C%96 閱讀文章: H

原创 從某個目錄下的所有SQL腳本里搜索還有"app"的腳本

find ./ -name '*.sql'|xargs grep 'app'