原创 python常用的模塊開發腳本

目錄 標準註釋 與linux交互 連接MySQL等數據庫 Tkinter基礎框架 SQL查詢結果excel導出 調用windows程序 ping網絡 圖形化統計分析 匿名函數&不定量元素輸入 pandas常用方法 爬蟲,王者榮耀皮膚爬取

原创 python如何把字符串轉變成list列表

在實際應用中,我們經常會遇到字符串類型互相轉換爲列表的需求,列表轉字符串很簡單,直接在前面加一個str強轉即可 但對於字符串呢,比如["cat","dog","duck"],這是一個字符串,但其實是列表類型,不像元組字典那般可以直接轉,如

原创 hivesql實現多行轉一行中的collect_list與collect_set的區別

行轉列是sql中常用語法,通常最普遍的做法是使用max,sum再配合case when 來做到,見之前一個blog:是的我又來推銷我的blog哈哈哈哈哈嗝兒~ 而對於多行轉一行的可以使用函數來實現,由於現在hive,spark 使用較爲普

原创 Kettle的ETL簡單應用

Kettle是極其方便好用的一個ETL數據傳輸同步工具 在navicat無法定製化傳輸,在DataX因爲不是圖像化慘遭小白淘汰,這個時候Kettle就噹噹噹派上用場了   1 下載解壓 下載我這裏提供一個9.0版本的,免安裝解壓即可用 鏈

原创 獲取數據庫多個表結構的方法

1 直接方法 使用navicat等工具點擊表詳情,獲取其DDL語句即可,單個表是最快速便捷的,多個表的話建議使用下面方法 2 寫腳本循環 以MySQL舉例,可以用這個sql代碼帶出來表結構,其他數據庫類似,對於多個表可以寫存儲過程或者其他

原创 DataX運行時報錯:jdbc4.MySQLNonTransientConnectionException:Could not create database server

出現這個問題我是一臉懵逼的,因爲datax作爲一個牛逼的ETL工具使用了好幾年,第一次碰見這樣的問題,簡單講一下我的處理過程 第一感覺是源MySQL數據庫的問題,因爲之前也遇到過這個問題,是too many connections連接數過

原创 用excel函數COUNTIF實現兩列數據對比找出不同數據

在數據量很多的時候,怎麼快速比對出兩列數據的不同處,或者查看某一列被另一列佔用了多少,當然多列也可以比,你只需要&&&拼接成一個字符對比就可以了 比對方法: 選擇其中一列,比如這裏的A列,爲了保證不被其他干擾,先開始-條件格式-清除規則

原创 用excel實現多表格數據的字典查找引用:VLOOKUP詳解

在excel的函數中最受歡迎的有三大家族,一個是以SUM,PRODUCT函數爲首的統計家族,一個是以IF函數爲首的邏輯函數家族,還有一個是以VLOOKUP函數爲首的查找引用家族,這裏我們主要詳解一下VLOOKUP 在python,java

原创 excel實現看某列的重複或用作隨相同值增加的column id數序

沒錯,還是COUNTIF這個函數 使用這個記得先給該列排序,方便你查看結果 具體就不上圖了,這篇博文有點水,,,是的我就是這兒麼的有自知之明 比如看D列,使用方法   =COUNTIF(D$1:D1,D1) ,然後雙擊下拉即可

原创 踩坑記錄:Oracle數據庫如何插入或轉換時間類型的數據

Oracle與MySQL,SQL Server不同,其對時間格式處理比較嚴格 格式化時間,比如格式爲'2020-02-02 02:00:00'這種格式,可以用to_date('time1','YYYY-MM-DD HH24:MI:SS')

原创 Java實現kakfa數據消費並把數據導入到數據庫

目錄   1 流程簡介 2 業務需求 3 腳本實現 3.1 格式化數據並寫入庫 3.2 讀取配置kafka數據流 3.3 主類啓動 4 注意事項 1 流程簡介 與kafka,MQ等消息隊列中間件結合可以做很多數據處理,kafka具體信息參

原创 Linux批量操作服務器的方式

該方式需保證各服務器之間網絡互通 需要用到的命令有ssh,scp,有的如果想免密登錄需要配置網絡公鑰key或者用sshpass實現,見我另一篇博客:是的,我總是喜歡時刻推銷自己的博客,啦啦啦 下面只需要把你想要操控的各個服務器IP放進列表

原创 大數據Spark SQL常用語言

建表 -- 分區表建表 create table if not exists project1.test1_liqb_dt (     id bigint comment 'id',     name string comment '姓

原创 大數據平臺數倉如何配置udf

udf即自定義函數,適用於一般的函數無法滿足當前工作需要或者特定場景需求等所應運而生的工具函數 本文拿漢字匹配來舉例,udf一般可以用python和java來編寫,java用的比較多,對平臺的適應性也更好,但python udf開發難度低

原创 大數據hive數倉平臺如何通過文件導入導出數據

文本文件數據導入 首先把文件轉成csv的格式(推薦是csv,並不一定非要是csv,txt,excel也可以,但穩定性不如csv),字符編碼推薦utf8 然後在資源管理裏選擇上傳資源-,把你的文件上傳到平臺,例如叫demo.csv 上傳完