原创 轉:hive中regexp_extract的用法總結
hive中regexp_extract的用法總結 如: 1) select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ; 得到的結果爲: itde 2) select r
原创 sys.stdin讀取數據與for循環
#test.py import sys for eachline in sys.stdin: line=eachline.strip().decode('utf-8') print(line) python3中使用sys
原创 Julia0.6.4 in jupyter notebook windows系統 環境配置
以下第1、2部分可以參考 julia簡易教程——安裝Julia+jupyter notebooks 1. 安裝Anaconda 這裏主要是爲了安裝jupyter notebook。 2. 安裝Julia 這裏Julia用了0.6.4的版本
原创 從某個目錄下的所有SQL腳本里搜索含有"app"的腳本
find ./ -name '*.sql'|xargs grep 'app'
原创 keras之preprocessing.sequence.pad_sequences
學自python函數—序列預處理pad_sequences()序列填充 1.基本功能 2.參數padding padding: String, 'pre' or 'post': pad either before or after ea
原创 C語言基本語句
注意一定不要忘記分號。 最後一個輸出的語句最後最好加上換行符。 (1)double相比double,小數點後面允許的位數相對多一點,因此float相對省空間。 (2)注意,在給某個變量賦值前,一定要先定義這個變量。 e=0的原
原创 Mac打開Excel強制grant access
原文鏈接:https://support.office.com/en-us/article/excel-prompts-you-to-grant-access-to-files-and-then-h
原创 在Google Colab中直接使用Github中的內容
原文鏈接:https://medium.com/@steve7an/how-to-test-jupyter-notebook-from-github-via-google-colab-7dc4b9b
原创 Hive優化
原文鏈接:https://www.cnblogs.com/sandbank/p/6408762.html 本文主要參考文獻: 《Hive編程指南》 數據分析利器之hive優化十大原則 優化一:
原创 Get Started with PySpark and Jupyter Notebook in 3 Minutes
原文鏈接:https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f 在Jupyter Not
原创 item2設置滾動緩衝區行數
原文鏈接:https://365airsoft.com/zh-CN/questions/1576379/iterm2xiangshanggundonggengduo-zengjiagundonghu
原创 保留由C升到B再升到A的過程,但是若是由A變到C或者B,只保留A
select userid,level, time, first_value(time) OVER(PARTITION BY userid,level ORDER BY time) as firstTime,
原创 replace columns報code 1 from org.apache.hadoop.hive.ql.exec.DDLTask錯誤
目前找到的解決辦法是(這邊感謝xiaoxiao~): --先改fileformat爲textfile alter table table_name set fileformat textfile; --再repalce alter t
原创 hive中count distinct報code 2錯誤
原文鏈接:http://datavalley.github.io/2016/02/15/Hive%E4%B9%8BCOUNT-DISTINCT%E4%BC%98%E5%8C%96 閱讀文章: H
原创 從某個目錄下的所有SQL腳本里搜索還有"app"的腳本
find ./ -name '*.sql'|xargs grep 'app'