原创 PYTHON 寫日誌的分割方案

按照時間進行分割 import time import logging import logging.handlers import os # 如果日誌文件夾不存在,則創建 log_dir

原创 python3 從kafka獲取數據,並解析爲json格式,寫入到mysql中

項目需求:將kafka解析來的日誌獲取到數據庫的變更記錄,按照訂單的級別和訂單明細級別寫入數據庫,一條訂單的所有信息包括各種維度信息均保存在一條json中,寫入mysql5.7中。 配置信息: [Global] kafka_ser

原创 使用python 獲取mysql數據 並生成hive建表語句

使用python 獲取mysql數據 並生成hive建表語句 # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') impo

原创 storm安裝記錄

安裝: 要使用storm首先要安裝以下工具: python、zookeeper、zeromq、jzmq、storm python安裝3以上的版本,具體參照https://www.cnblogs.com/windinsky/archiv

原创 python 報錯 'gbk' codec can't encode character '\xb5' in position 7431: illegal multib

將代碼放在cmd中執行時,報錯 ‘gbk’ codec can’t encode character ‘\xb5’ in position 7431: illegal multib 原因:在windows下面,新文件的默認編碼是gb

原创 統計學 學習

最近看的東西多而雜,越學習,越是覺得自己不會的太多了,今天開始學習統計學的相關知識吧。。。 電子書資源: 大數據的統計學基礎 https://pan.baidu.com/s/1AwT9gav5pK0xcjhgc6YchQ 統計學基本

原创 抄一些大數據技術總結

作者:夏然 鏈接:https://www.zhihu.com/question/41541395/answer/172981131 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 使用Mysql,Po

原创 impala學習

impala的主要組成部分: 組成部分:1、Impala Daemon(守護進程impalad,核心的進程) 它負責讀寫數據文件,接收從impala-shell、Hue、JDBC、ODBC等接口發送的查詢語句,並行化查詢語句和分發工作

原创 druid學習

druid是什麼? Druid是一個用於大數據實時查詢和分析的高容錯、高性能開源分佈式時序的面向olap的數據庫系統,旨在快速處理大規模的數據,並能夠實現快速查詢和分析。尤其是當發生代碼部署、機器故障以及其他產品系統遇到宕機等情況時,

原创 oracle 大數據量更新

批量更新,MERGE語句性能最好,因爲它可以多塊讀,並且可以並行執行,但是缺點就是消耗比較多的UNDO,一旦down機死事物恢復較慢。 ORDER BY ROWID 在 buffer cache 不夠大的情況下性能較好好(沒Merge

原创 數據分析一些思路:

1、當一個指標出現變動,如何找到是什麼因素導致指標變動? 思路:1、橫向對比(例如:指標的同級別的部門間,公司間等類似的) 2、縱向對比(例如:時間線的對比,同比,環比等) 3、指標的拆分(例如:指標=客戶數*訂單數,客戶分爲老客戶,

原创 Apache NiFi學習及使用的記錄

Apache NiFi是什麼? 一個易用、強大、可靠的數據處理與分發系統 傳統的數據流解決方案往往會遇到以下的挑戰: 系統錯誤,包括網絡錯誤、硬盤錯誤、軟件崩潰,甚至是人爲錯誤,造成了數據流處理的不穩定性; 數據訪問超過處理能力,當數

原创 presto學習

架構: 原理: 執行流程: 如何使用: 優化:

原创 kylin學習

kylin的概念: kylin重要的術語 kylin架構: kylin製作cube的步驟 kylin中cube的設置: cube幾種優化方式: kylin的count distinct的調優方式(步驟) 參考:http://lxw12

原创 scala學習

閱讀了python和scala的優缺點的文章後,發現編程語言scala在學習spark上還是繞不過去的,不求很精通,但是熟悉基本的編寫和使用是必須的。