原创 天氣越來越冷,利用Python做一個監控天氣的程序,發郵件

完成這個任務需要三個步驟: 1、查詢天氣 2、發送郵件 3、代碼實現 查詢天氣,主要是通過api來發送請求得到json數據串,並通過postman來測試請求。 查詢天氣接口 要獲取天氣情況,需要一個查詢天氣的接口,網上找了一下,一般都是註

原创 數據倉庫的兩種建模方法(範式建模和維度建模)

數據倉庫的兩種建模方法 範式建模 Inmon提出的集線器的自上而下(EDW-DM)的數據倉庫架構。操作型或事務型系統的數據源,通過ETL抽取轉換和加載到數據倉庫的ODS層,然後通過ODS的數據建設原子數據的數據倉庫EDW,EDW不是多維格

原创 python的logging兩種高級用法

一、 基礎使用 1.1 logging使用場景 日誌是什麼?這個不用多解釋。百分之九十的程序都需要提供日誌功能。Python內置的logging模塊,爲我們提供了現成的高效好用的日誌解決方案。但是,不是所有的場景都需要使用logging模

原创 python etree爬取去哪兒數據

爬取去哪兒數據 import pymysql from lxml import etree #!/usr/bin/env python # encoding: utf-8 """ @author: owen.cai @contact:

原创 mysql查看存儲過程函數視圖和觸發器

mysql查看存儲過程函數 查詢數據庫中的存儲過程和函數 select `name` from mysql.proc where db = 'xx' and `type` = 'PROCEDURE' //存儲過程

原创 帶有 yield 的函數在 Python中的使用介紹

帶有 yield 的函數在 Python中的使用介紹  菜鳥觀數據 2019-10-19 18:17 帶有 yield 的函數在 Python 中被稱之爲 generator(生成器),何謂 generator ,通過下面的例子來說明。

原创 一文看懂mysql sys庫常見用法--實現數據庫信息的收集及監控 概述

一文看懂mysql sys庫常見用法--實現數據庫信息的收集及監控 概述 MySQL5.7的新特性中,非常突出的特性之一就是sys庫,不僅可以通過sys庫完成MySQL信息的收集,還可以用來監控和排查問題。下面介紹一些常用的用法。   一

原创 python爬取nab球員數據

import requests from bs4 import BeautifulSoup import pymysql def insertdata_myql(sql): # 打開數據庫連接(具體配置信息請自行替換)

原创 python的爬蟲基本知識介紹

前言 簡單來說互聯網是由一個個站點和網絡設備組成的大網,我們通過瀏覽器訪問站點,站點把HTML、JS、CSS代碼返回給瀏覽器,這些代碼經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前; 一、爬蟲是什麼? 如果我們把互聯網比作一張大的蜘蛛

原创 Hive分析窗口函數 GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 這幾個分析函數通常用於OLAP中,不能累加,而且需要根據不同維度上鑽和下鑽的指標統計,比如,分小時、天、月的UV數。 數據準備 2015-03,2015-

原创 Hadoop之YARN學習總結之架構

一、yarn產生背景         YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的App

原创 MySQL優化大全,硬優化和軟優化

原文鏈接:https://www.toutiao.com/a6719448651367711244/?tt_from=weixin&utm_campaign=client_share&wxshare

原创 windows下安裝pycharm並連接Linux的python環境

windows下安裝pycharm並連接Linux的python環境 1. 下載安裝Pycharm專業版 http://www.jetbrains.com/pycharm/ 2. 添加配置連接遠程服務器 2.1  打開 PyCharm,依

原创 機器學習實戰-利用PCA來簡化數據(降維)

一 理論        降維是對數據高維度特徵的一種預處理方法。降維是將高維度的數據保留下最重要的一些特徵,去除噪聲和不重要的特徵,從而實現提升數據處理速度的目的。在實際的生產和應用中,降維在一定的信息損失範圍內,可以爲我們節省大量的時間

原创 Hive實現數據抽樣的常用三種方法

背景 在大規模數據量的數據分析及建模任務中,往往針對全量數據進行挖掘分析時會十分耗時和佔用集羣資源,因此一般情況下只需要抽取一小部分數據進行分析及建模操作。 Hive提供了數據取樣(SAMPLING)的功能,能夠根據一定的規則進行數據抽樣