原创 多個left join的疑問

測試數據a表id1-10,b表id5-12,c表id2-11 目的:找到滿足a表不滿足b表滿足c表的id(應該是2,3,4)  use test; create table testtesta (id bigint); insert i

原创 異常檢測實戰

數據科學導論 python語言實現 一、單變量異常檢測(一次觀測一個變量) 1.1 Z-scores 得分絕對值超過3的 1.2 箱線圖   import numpy as np from sklearn import preproce

原创 時間序列流程

一、變平穩 1.1 去趨勢      差分、取對數 1.2去週期性      濾波、差分 1.3變平穩的原因除了1.1、1.2之外還有     穩定方差、使數據呈現正態分佈、使週期效應累加 ARIMA模型的示例代碼 from panda

原创 python非參數檢驗

目錄 單樣本非參數檢驗 中位數(均值)檢驗【wilcoxon符號值秩檢驗】  分佈的檢驗 遊程檢驗 兩樣本的非參數檢驗 獨立樣本中位數(均值)檢驗【Mann-Whitney-Wilcoxon檢驗or Wilcoxon秩和檢驗】 獨立樣本的

原创 從組合中估計概率

一些分類算法缺乏輸出結果爲概率的能力,比如rf 這個時候使用calibratedclassifiercv,它使用2種方法將分類結果轉化爲概率 第一種:platte的歸類方法 第二種:isotonic迴歸 import pandas as

原创 python相關分析和關聯分析

相關分析 函數關係: 相關關係:影響不存在方向性,比如身高越高體重越重,但不能說身高增加1cm體重增加2kg 相關分析不具有傳遞性,A和C相關,B和C相關,A和B不一定相關 相關係數的顯著性檢驗 #1.兩兩相關性[有相關係數有p值] c

原创 python數據描述

目錄 集中趨勢 均值(加權截尾去尾幾何調和) 中位數 分位數 衆數 極差 四分位差 方差和標準差 協方差 變異係數(標準差係數、離散係數) 分佈形狀 偏度(數據分佈對稱性的測度) 峯度(數據分佈曲線頂端陡峭或扁平程度的指標) 數據透視表 

原创 三、過渡頁設計

按住shift 同時調整圖片大小 1.過渡頁1 插入形狀-設置格式-無線條-透明度30%可 2.過渡頁2  

原创 hive遺留問題

hive和mysql有什麼不同 1.不支持下列from a,b where用法 SQL中對兩表內聯可以寫成:select * from dual a,dual b where a.key = b.key;  Hive中應爲:select

原创 python迴歸分析

目錄 含定性變量的線性迴歸 非線性迴歸    含定性變量的線性迴歸 # 1.treatment包實現dummy from patsy.contrasts import Treatment contrast = Treatment(ref

原创 一、PPT封面設計

寬屏:設計-頁面設置(16:9分辨率) 1 封面效果1 圖片拉大拉小不變分辨率:右下角那個點拉大拉小,之後再使用圖片裁剪即可 插入-形狀-修改形狀格式 插入-文本框-選中整個文本框更改字體和大小(不要只是單個字);選中整個文本框-格式-

原创 統計數字會撒謊-讀書筆記

1.樣本的抽取要無偏,而且人們要說實話 人們會說真話的假定往往是不可靠的。以前曾經搞過一項旨在瞭解雜誌閱讀量的上 門調查,其中的一個主要問題是:你和你的家人閱讀什麼雜誌?當將調查結果製表並分析後 發現:大部分的人喜歡《琴師》(Harper

原创 二、目錄頁設計

  格式統一:先做好一個目錄1,ctrl按住 往外拉四個-按住目錄1格式刷雙擊 再按其他的目錄-格式左對齊+縱向分佈 在形狀裏可以直接寫文字:調節文字上下可以如上圖所示  文字前面加點:選中文字-開始-項目選項 插入表格-選中所有

原创 count(*) count(列名)count(1)

COUNT(常量) 和 COUNT(*)表示的是直接查詢符合條件的數據庫表的行數。而COUNT(列名)表示的是查詢符合條件的列的值不爲NULL的行數 COUNT(*)相比COUNT(常量) 和 COUNT(列名)來講,COUNT(*)是S

原创 互聯網雜記

costco 定位:中產階段家庭 :無憂購物無理由退貨+超值的價格+滿足需求且超少的SKU 本田有三個喜歡:讓造車的人喜歡,讓賣車的人喜歡,讓用車的人喜歡 供應鏈穩定的採購+員工的高薪水()+付費會員的蜂擁而至 缺點:大包裝不符合國情;羊