原创 SQL查詢語句基礎構成

    本文是基本的SQL查詢語句用法,內容主要來自Alan Learning SQL這本書第3章,包括select,from,where,group by,having,order by六個查詢子句,後續會深入介紹每個查詢子句的用法。

原创 離散概率分佈與期望

1. 離散概率分佈:隨機變量取確定的離散值對應的概率分佈,如拋一枚硬幣對應的正面和反面的概率,老虎機中不同等級獎項的概率,一般的表示爲,隨機變量X取x1, x2,...,xn對應的概率爲P(X=x1),P(X=x2),...P(X=xn)

原创 t分佈(Student t distribution)——正態分佈的小樣本抽樣分佈

目錄 大樣本抽樣分佈 正態分佈小樣本抽樣分佈—t分佈 運用t分佈構建小樣本抽樣均值的置信區間 運用t分佈進行小樣本抽樣均值檢驗 大樣本抽樣分佈 對於大樣本的抽樣分佈,由中心極限定理,無論總體分佈是否爲正態分佈,其均值x_bar的抽樣分佈爲

原创 魔法函數%matplotlib 解決matplotlib畫圖在Jupter/IPython中不顯示

用Python畫圖時,有時候畫圖結果存儲在內存中不顯示,如下圖 import seaborn as sns subset = tz_counts[:10] sns.barplot(y=subset.index, x=subset.val

原创 IntelliJ idea 給git下來的項目配置python環境(Anaconda)

對於IDEA集成開發環境,運行Python代碼時需要配置Python解釋器,沒有正確配置時,直接運行代碼會報錯, 例如:import pandas as pd ModuleNotFoundError: No module named pa

原创 分類數據的分析-卡方檢驗運用

概念 分類數據 觀測值只能被分爲幾個類別中的某一類,如某個公民的國籍,也稱定性數據。 多項試驗 當分類數據只涉及到兩個響應結果(是或不是,成功或失敗等等),就是一個二項分佈。如果分類數據涉及到兩個以上的響應結果,則是一個多項試驗。 多項試

原创 Python 獲取當前文件夾所有文件名並寫入到excel文件中

在工作中,有時候,我們需要整理文件夾中的所有文件名稱,並羅列在一張表格中。天哪,我的文件夾中有上千個文件,要一個個的複製粘貼嗎?太麻煩了吧?今天,我們用Python來解決這個問題。 1. 使用方法: 將下面這段Python代碼文件複製到需

原创 基於單樣本單統計推斷-假設檢驗

目錄 假設檢驗單的要素 假設檢驗中的概率 假設檢驗的步驟 1. 確定目標檢驗參數 2.確定原假設H0和備選假設Ha 3. 計算檢驗統計量 4. 根據顯著性水平α確定拒絕域 5. 將檢驗統計量計算值與拒絕域進行比較,得出結論 計算觀察對顯

原创 Excel繪製累積分佈函數CDF(Cumulative Distribution Function)

一、累積分佈函數(Cumulative Distribution Function) 累積分佈函數(Cumulative Distribution Function),又叫分佈函數,是概率密度函數的積分,能完整描述一個實隨機變量X的概率分

原创 Hive中的算術運算符:位運算符解釋

Hive中的位運算符運用不多,可能大部分人也不少很熟悉,其實就是將兩個數值轉爲位相應的二進制,在相應位上進行與、或、反、異或操作: 1. 位與操作: & 語法: A & B 操作類型:所有數值類型 說明:返回A和B按位進行與操作的結果。結

原创 分類變量如何設置變量值的顯示順序

在做數據分析的時候,有時候分類變量值默認的排序不是我們想要的,需要調整顯示順序,pandas可以通過pd.Categorical來設置分類變量的顯示順序。 例如,對於數據分析教程常用的diamonds數據集,color等級是從J, I,

原创 向seaborn傳遞matplotlib繪圖參數,精細地控制seaborn輸出圖形

1. matplotlib與seaborn的關係 matplotlib繪圖參數非常多,可以通過參數精細的控制圖形輸出,這是它的優點。但同時也很複雜,繪一個圖常常需要很多行代碼,需要使用者熟悉衆多圖形控制參數,不容易上手,這是它的缺點。se

原创 SQL case when 2種用法

一、 基本表達式  (case when {條件表達式} then {結果表達式}           when {條件表達式} then {結果表達式}           when {條件表達式} then {結果表達式} 

原创 R中千分位分隔符數值(美式數值)讀取

1. 千分位分割數值 對於英美數值數據,千分位分隔符(逗號分割)很常見,如下面一份房地產銷售數據,land.squre.feet, gross.square.feet兩列數據。 2. R不能自動識別千分位分割數值 雖然在Excel裏面,

原创 SQL查詢入門

    本文是基本的SQL查詢語句用法,內容主要來自Alan Learning SQL這本書第3章,包括select,from,where,group by,having,order by六個查詢子句,後續會深入介紹每個查詢子句的用法。