原创 天氣越來越冷,利用Python做一個監控天氣的程序,發郵件
完成這個任務需要三個步驟: 1、查詢天氣 2、發送郵件 3、代碼實現 查詢天氣,主要是通過api來發送請求得到json數據串,並通過postman來測試請求。 查詢天氣接口 要獲取天氣情況,需要一個查詢天氣的接口,網上找了一下,一般都是註
原创 數據倉庫的兩種建模方法(範式建模和維度建模)
數據倉庫的兩種建模方法 範式建模 Inmon提出的集線器的自上而下(EDW-DM)的數據倉庫架構。操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然後通過ODS的數據建設原子數據的數據倉庫EDW,EDW不是多維格
原创 python的logging兩種高級用法
一、 基礎使用 1.1 logging使用場景 日誌是什麼?這個不用多解釋。百分之九十的程序都需要提供日誌功能。Python內置的logging模塊,爲我們提供了現成的高效好用的日誌解決方案。但是,不是所有的場景都需要使用logging模
原创 python etree爬取去哪兒數據
爬取去哪兒數據 import pymysql from lxml import etree #!/usr/bin/env python # encoding: utf-8 """ @author: owen.cai @contact:
原创 mysql查看存儲過程函數視圖和觸發器
mysql查看存儲過程函數 查詢數據庫中的存儲過程和函數 select `name` from mysql.proc where db = 'xx' and `type` = 'PROCEDURE' //存儲過程
原创 帶有 yield 的函數在 Python中的使用介紹
帶有 yield 的函數在 Python中的使用介紹 菜鳥觀數據 2019-10-19 18:17 帶有 yield 的函數在 Python 中被稱之爲 generator(生成器),何謂 generator ,通過下面的例子來說明。
原创 一文看懂mysql sys庫常見用法--實現數據庫信息的收集及監控 概述
一文看懂mysql sys庫常見用法--實現數據庫信息的收集及監控 概述 MySQL5.7的新特性中,非常突出的特性之一就是sys庫,不僅可以通過sys庫完成MySQL信息的收集,還可以用來監控和排查問題。下面介紹一些常用的用法。 一
原创 python爬取nab球員數據
import requests from bs4 import BeautifulSoup import pymysql def insertdata_myql(sql): # 打開數據庫連接(具體配置信息請自行替換)
原创 python的爬蟲基本知識介紹
前言 簡單來說互聯網是由一個個站點和網絡設備組成的大網,我們通過瀏覽器訪問站點,站點把HTML、JS、CSS代碼返回給瀏覽器,這些代碼經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前; 一、爬蟲是什麼? 如果我們把互聯網比作一張大的蜘蛛
原创 Hive分析窗口函數 GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 這幾個分析函數通常用於OLAP中,不能累加,而且需要根據不同維度上鑽和下鑽的指標統計,比如,分小時、天、月的UV數。 數據準備 2015-03,2015-
原创 Hadoop之YARN學習總結之架構
一、yarn產生背景 YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的App
原创 MySQL優化大全,硬優化和軟優化
原文鏈接:https://www.toutiao.com/a6719448651367711244/?tt_from=weixin&utm_campaign=client_share&wxshare
原创 windows下安裝pycharm並連接Linux的python環境
windows下安裝pycharm並連接Linux的python環境 1. 下載安裝Pycharm專業版 http://www.jetbrains.com/pycharm/ 2. 添加配置連接遠程服務器 2.1 打開 PyCharm,依
原创 機器學習實戰-利用PCA來簡化數據(降維)
一 理論 降維是對數據高維度特徵的一種預處理方法。降維是將高維度的數據保留下最重要的一些特徵,去除噪聲和不重要的特徵,從而實現提升數據處理速度的目的。在實際的生產和應用中,降維在一定的信息損失範圍內,可以爲我們節省大量的時間
原创 Hive實現數據抽樣的常用三種方法
背景 在大規模數據量的數據分析及建模任務中,往往針對全量數據進行挖掘分析時會十分耗時和佔用集羣資源,因此一般情況下只需要抽取一小部分數據進行分析及建模操作。 Hive提供了數據取樣(SAMPLING)的功能,能夠根據一定的規則進行數據抽樣