台部落二两芝麻

按照時間進行分割 import time import logging import logging.handlers import os # 如果日誌文件夾不存在，則創建 log_dir

2020-06-15 10:08:32

項目需求：將kafka解析來的日誌獲取到數據庫的變更記錄，按照訂單的級別和訂單明細級別寫入數據庫，一條訂單的所有信息包括各種維度信息均保存在一條json中，寫入mysql5.7中。配置信息： [Global] kafka_ser

2020-06-15 10:08:21

使用python 獲取mysql數據並生成hive建表語句 # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') impo

2019-07-09 15:00:20

安裝：要使用storm首先要安裝以下工具： python、zookeeper、zeromq、jzmq、storm python安裝3以上的版本，具體參照https://www.cnblogs.com/windinsky/archiv

2019-01-31 14:17:58

將代碼放在cmd中執行時，報錯 ‘gbk’ codec can’t encode character ‘\xb5’ in position 7431: illegal multib 原因：在windows下面，新文件的默認編碼是gb

2019-01-26 01:30:47

最近看的東西多而雜，越學習，越是覺得自己不會的太多了，今天開始學習統計學的相關知識吧。。。電子書資源：大數據的統計學基礎 https://pan.baidu.com/s/1AwT9gav5pK0xcjhgc6YchQ 統計學基本

2019-01-26 01:30:47

作者：夏然鏈接：https://www.zhihu.com/question/41541395/answer/172981131 來源：知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。使用Mysql，Po

2019-01-26 01:30:47

impala的主要組成部分：組成部分：1、Impala Daemon（守護進程impalad，核心的進程）它負責讀寫數據文件，接收從impala-shell、Hue、JDBC、ODBC等接口發送的查詢語句，並行化查詢語句和分發工作

2019-01-26 01:30:47

druid是什麼？ Druid是一個用於大數據實時查詢和分析的高容錯、高性能開源分佈式時序的面向olap的數據庫系統，旨在快速處理大規模的數據，並能夠實現快速查詢和分析。尤其是當發生代碼部署、機器故障以及其他產品系統遇到宕機等情況時，

2019-01-26 01:30:47

批量更新，MERGE語句性能最好，因爲它可以多塊讀，並且可以並行執行，但是缺點就是消耗比較多的UNDO，一旦down機死事物恢復較慢。 ORDER BY ROWID 在 buffer cache 不夠大的情況下性能較好好(沒Merge

2019-01-26 01:30:47

1、當一個指標出現變動，如何找到是什麼因素導致指標變動？思路：1、橫向對比（例如：指標的同級別的部門間，公司間等類似的） 2、縱向對比（例如：時間線的對比，同比，環比等） 3、指標的拆分（例如：指標=客戶數*訂單數，客戶分爲老客戶，

2019-01-26 01:30:47

Apache NiFi是什麼？一個易用、強大、可靠的數據處理與分發系統傳統的數據流解決方案往往會遇到以下的挑戰：系統錯誤，包括網絡錯誤、硬盤錯誤、軟件崩潰，甚至是人爲錯誤，造成了數據流處理的不穩定性；數據訪問超過處理能力，當數

2019-01-26 01:30:47

架構：原理：執行流程：如何使用：優化：

2019-01-22 00:21:25

kylin的概念： kylin重要的術語 kylin架構： kylin製作cube的步驟 kylin中cube的設置： cube幾種優化方式： kylin的count distinct的調優方式（步驟）參考：http://lxw12

2019-01-19 00:33:45

閱讀了python和scala的優缺點的文章後，發現編程語言scala在學習spark上還是繞不過去的，不求很精通，但是熟悉基本的編寫和使用是必須的。

2019-01-16 12:58:55