原创 dataocean平臺用繼承spark的python腳本來實現抓取es數據到hive

在大數據生態裏,ES作爲一個極致搜索平臺,可依據json格式快速在線查詢過濾以及修改數據,由於json數據是半結構化數據,所以從hive數倉數據交換到es很簡單,但是從es交換到hive就需要對應字段切分,現在基本上使用的都是scala,

原创 HiveSQL的字符切分:substr與instr的完美結合

在sql查詢中,諸如substr,left,right等字符切分函數的應用場景非常大,只需要指定字符,開始序位,結束序位就能很方便的切分得到我們想要的結果,但是對於數據序位不統一的,比如一個name字段裏有%test1#,%test#,%

原创 linux系統實現DataX任務進程多併發以及自定義併發數

下面是我之前用datax任務多併發數據上雲時寫的shell腳本(已進行精簡),註釋比較詳盡 運行方式 ./ty_commit_task_to.sh 10     其中10代表併發任務量,可根據自身服務器的CPU等配置進行合理輸入數值 大家

原创 python如何替換固定序列的字符

比如我們要把一個手機號12345678901 替換爲 123****8901 mob1 = '12345678901',(要注意一點整型無法做序列,需要把整型str變成字符) 第一步我們先把這個字符列表化 num1 = list(str(

原创 神夕集

     杭喫 煙花三月遲 江城四月梔 五月塘棲枇杷 對賦六月詩      紹喝 七月與黃昏 八月祝家村 淡淡蘭花九月 十月會稽樽      溫玩 十一月照人 臘月雪無痕 永嘉一月好景 花開二月聞 水墨圓彩 諾一世怎離傷 若花怨蝶 

原创 如何把U盤當作啓動盤來進行一鍵裝機

u盤製作啓動盤是比較簡單的,首先下載工具 比如老毛桃,雲騎士裝機,軟媒等 拿老毛桃舉例,準備一個U盤,注意該U盤的文件會全部刪除掉,切記重要文件轉移備份 然後打開老毛桃,選擇U盤啓動-選擇模式(默認即可)-一鍵製作,然後敬候佳音即可 裝

原创 sql實現時間段切分:每隔x分鐘出一份高速門架車流量

業務場景: 我們需要查詢從表T裏查詢某一天按照5分鐘爲一段間隔通過高速門架的車流量。部分脫敏數據如下 表T裏包含time,id,chepai,部分數據爲(’2020-02-23 00:43:27','某高速門架0010','浙XXXXX

原创 批量處理linux集羣系統--免交互式sshpass的安裝簡介與使用

我們在Linux集羣系統使用中,偶爾會碰到需要批量處理每個系統的情況,比如ssh的登陸運行命令,或者scp的文件複製,這些只需要在shell腳本批量運行各個IP即可,但ssh,scp需要交互式輸密碼,也就是說你仍然需要一個個的輸密碼,過於

原创 Java IDE基於阿里雲maven建工程項目

我們在java開發時有時需要導入很多包,比如hive,spark,kafka等,這些雖然可以通過離線包來下載import,但始終不方便,而通過maven來import就很方便,它可以自動幫你下載所需包。不過初始的maven來源於國外,下載

原创 用python 來實現經緯度的測算與輸出

本文采用高德地圖地理標識規範 首先導入兩個分析包,math和pandas,如果有需要還有numpy,mathplotlib等常用數據分析包 import pandas as pd import math 測算一經度和一緯度的距離 #

原创 Maven常用的一些日常筆記

Maven是什麼?Maven譯爲"專家"、"內行",是 Apache 下的一個純 Java 開發的開源項目管理工具,可以對 Java 項目進行構建、依賴管理。簡而言之,我們使用了Maven,不僅僅可以對工程項目進行管理,打包等,還可以免下

原创 Linux和Windows下的分頁壓縮:拆分大文件的niubilitier

講此之前,我們先了解一下壓縮的特點 對結構化,半結構化數據壓縮有效性高,對圖片,視頻這些非結構化緻密數據壓縮有效性低,即源文件100M,壓縮後估計也就是99M 壓縮有上限值,比如一個100M的文件第一次壓縮爲50M,再壓縮爲40M,再再壓

原创 PyQt邏輯調用的通用腳本模板

在當前的GUI編程裏,一般我們把需要不斷調試調優,不斷變化的文件稱爲界面文件,由於界面文件每次編譯時都會初始化,所以需要新建一個py文件來調用界面文件,這個新建的文件就叫做邏輯文件。 邏輯文件一般不需要改動,改動的是界面文件,這兩個文件是

原创 python讀取數據庫數據亂碼

在連接數據庫時加入charset="utf8"  這個字符集與數據庫保持一致 比如MySQL

原创 python pip使用清華大學鏡像進行下載

比如下載sqlalchemy pip install -i https://pypi.tuna.tsinghua.edu.cn/simple sqlalchemy 如果想指定版本,可以直接=版本號  pip install -i h