原创 元數據及數據倉庫相關概念

文章目錄元數據(metadata)的概念Data about Data定義技術元數據業務元數據總結數據倉庫ODS簡單的理解爲 Operational Data Store, 運營數據倉儲 數據整合層(也叫做數據緩衝層)EDW簡單理解爲

原创 airflow 運行週期設置 schedule_interval

airflow 運行週期問題 最近開始正式使用airflow,關於 schedule_interval 和頁面上顯示的 last run一直有些不太清楚的地方,而在設置一個每週運行的任務時終於遇到了問題,任務並沒有能夠如期運行。 一系

原创 delorean使用教程

首先,確定幾個概念。 navie datetime:沒有指定時區的datetime對象 localized datetime:指定時區的datetime對象 localizing:指定市區的的navie datetime normali

原创 DJANGO 1.8模版配置

在使用django1.8的時候,配置模版遇到了個不小的問題,按照默認設置配置模版和views後一直報錯,找不到模版,搜索了很多相關信息後終於找到了解決方案。 去掉settings.py中的 TEMPLATE_DIRS = ( os

原创 PulP線性優化(三)python編碼

本文根據PuLP文檔翻譯而來,原文請參考 https://pythonhosted.org/PuLP/main/basic_python_coding.html 基本的Python編碼 在本課程中,您將學習Python中的基本編程

原创 PulP線性優化(二)優化概念

本文根據PuLP文檔翻譯而來,原文請參考 https://pythonhosted.org/PuLP/main/optimisation_concepts.html 線性編程 最簡單的數學程序類型是線性程序。要使您的數學程序成爲線性程序

原创 airflow EmailOperator 發送郵件 附件文件名丟失或亂碼問題

開始使用airflow 最早開始使用airflow是因爲公司的服務過度 依賴crontab了,完全通過時間進行任務調度,而且不便於追蹤任務運行情況,也不好處理任務之間的依賴關係。更不要說管理多服務器的crontab問題了。 於是自己進行軟

原创 Dom4j讀取XML指定節點

想要讀取指定Name的節點時遇到了一定的困難 <Property Name="Title">十八大報告</Property>,最後通過Dom4j與XPATH完美解決。 需要jar如下 http://download.csdn.net/de

原创 Python命名規範

Python命名規範 目錄 Python命名規範 目錄 常量 變量 函數 模塊 類 包 常量: 常量名所有字母大寫,由下劃線連接各個單詞,如 WHITE = 0XFFFFFF THIS_IS_A_CONSTANT =

原创 Python代碼規範和命名規範

Python代碼規範和命名規範 前言 Python 學習之旅,先來看看 Python 的代碼規範,讓自己先有個意識,而且在往後的學習中慢慢養成習慣 目錄 一、簡明概述 1、編碼 如無特殊情況, 文件一律使用 UTF-

原创 cloudera mamager中配置hive加載第三方JAR

問題出現 在將清洗過的log日誌加載進入HIVE這一步中,由於log是採用了json的格式,所以需要使用第三方的jar進行格式轉換。 使用JsonSerde 這裏使用了JsonSerde 在hive shell 中只需要手動臨時添加jar

原创 解決IDE編寫JAVA讀取文件的路徑問題

在Eclipse環境下編寫代碼讀取文件是常使用System.getProperty("user.dir"); 或者項目路徑來尋找文件,但是當把java項目生成jar時常常會找不到文件,這是因爲文件是在jar文件中,並不能通過路徑來找到原有

原创 The Jaro–Winkler distance 計算短文本相似度

關於編輯距離 算法簡介 算法定義 例子 python 運行 關於編輯距離 此前計算短文本的相似度更多使用的是編輯距離(Levenshtein距離),但是編輯距離更適合計算純文本的差異,不考慮文本的順序和含義,所以在相

原创 sklearn 0.17 版本 方法過時問題

發現問題 解決方案 發現問題 最早使用的是0.15 版本的sklearn 後來更換的開發環境,使用了0.17版本,但是出現了無法運行的問題,在一番搜索之後在stackoverflow上找到了答案 DeprecationW

原创 python 輸出JSON類型數據時遇到的編碼問題(utf8,unicode)

開發背景 遇到的問題 參考資料 開發背景 目前已經用scala開發了RESTFUL API來接收傳送來的用戶聊天數據,正在在使用python開發kafka的consumer消費kafka中的數據,每天保存成一個文件,