原创 dataframe日期按周、按月、按季度聚合

dataframe中的每一列都是一個Series對象,這個Series對象的index默認是從0開始,步長爲1進行遞增。 如果你的dataframe中有一列是日期,對於其他列字段需要按照日期字段進行聚合的話,需要將待聚合列的Ser

原创 NameError: name 'datetime' is not defined

sql腳本跑出的日期是通過substring()截取出來的,是字符串類型。在dataframe中需要調用日期函數做一個轉化,將string轉化爲dataframe類型。 offline.index = custs_to_order

原创 pandas如何在一個Excel文件中寫入多個sheet頁

要實現這個功能,需要藉助於pandas的ExcelWriter()方法,參考如下: from impala.util import as_pandas # 把數據庫中表字段寫入到Excel文件中便於查看 curs.execute

原创 “ResultSet”對象沒有屬性“find_all”,unable to get local issuer certificate (_ssl.c:1108)問題解決

from bs4 import BeautifulSoup import urllib.request url='https://topic.autohome.com.cn/new/home/sos.jsp?isNonCar=0

原创 Glyph 26426 missing from current font.解決matplotlib畫圖中文字體亂碼問題

1. 問題復現 環境:Ipython 3.8 import matplotlib.pyplot as plt import pandas as pd data = pd.read_csv('/Users/me/Docume

原创 spark sql如何把一列拆分爲多行:Lateral view explode

背景介紹 比如拿到了每個人吃的食物,並且知道每種食物的卡路里,需要計算每個人的攝入的總卡路里數。怎麼計算呢? 表p_food name food Lily apple、milk、rice Amy meat、water、 表f_ca

原创 python讀取txt文件中的json數據

txt文本文件能存儲各式各樣數據,結構化的二維表、半結構化的json,非結構化的純文本。 存儲在excel、csv文件中的二維表,都是可以直接存儲在txt文件中的。 半結構化的json也可以存儲在txt文本文件中。 最常見的是

原创 如何將SQL查出的結果拼成json串

在機器學習中,特徵工程是一個非常重要的環節,特徵的好壞直接影響模型的效果。 除了用SQL開發一些簡單的單值特徵,比如每家店鋪的流量,每家店鋪的銷量,這種單維的特徵非常常見。 在實際工作中,還會有開發一些複雜特徵的需求,常見的比如

原创 python連接hive批量補充時間分區特徵

1. python連接數據庫 from pyhive import hive conn = hive.Connection( host= 'xxx xxx', port= xxx,

原创 azkaban調度SQL代碼

1. azkaban上新建一個project 登錄azkaban後,右上角有個Create Project的按鈕,點解後錄入項目信息。 2.上傳項目文件 前人經驗,這裏應該上傳一個.zip的壓縮文件,並且你這個.zip的壓縮文

原创 Oracle中橫錶轉縱表

本文的橫表存儲的是特徵數據,表的數據結構是經常會變化的,比如添加特徵操作。 特徵表設計爲橫表操作不靈活,別人在引用特徵時也將受到這種變化影響,增加特徵後也可能帶來數據異常。此外,特徵數量龐大之後,選用特徵也會及其不便。 所以我們

原创 oracle中的with as子查詢用法

在開發標籤或者特徵時,需要以基本對象爲基礎,做許多關聯、計算或統計。 如果開發的特徵數目少,涉及到的表也比較少,可能還可以寫一大段關聯一氣呵成。然而,絕大多數情況下,隨着標籤涉及到基礎數據表的膨脹,數據在關聯中也不斷膨脹,非常容易

原创 oracle中add_months()統計近1個月、近3個月、近6個月

1)獲取當前日期 首先近N個月,是以當前執行時間爲基期的,所以先弄清楚在oracle中如何獲取當前日期。 select sysdate from dual 執行了這條語句後,可以看到返回了一個當前日期 注意sysdate不是

原创 python中多層for循環跳出break與else

代碼能力不甚強,只知道break可以跳出其所歸屬的最小循環體,並且接觸到的一般都是小循環結束了,外面嵌套的大循環也就直接結束了,不會有其他操作。 直到今天寫這個需求,苦苦想了個把鐘頭才搞對,真是水平不高哈哈、 找到了一個值,就即刻寫

原创 機器學習——決策樹建模及預測

本篇中將分4步介紹一個簡單的決策樹預測模型的構建過程,讓你對建模過程有初步瞭解。 1. 選擇數據集 你的數據集中變量太多了,讓人摸不着頭腦,即便是打印出來也看不清楚。怎樣才能把這些龐大的數據集簡化爲能看得懂的東西呢? 在這篇中我們先依