原创 《利用Python進行數據分析》第6章 數據加載、存儲與文件格式

接下來要着重介紹pandas的輸入輸出對象,輸入輸出通常可以劃分爲幾個大類:讀取文本文件和其他更高效的磁盤存儲格式,加載數據庫中的數據,利用Web API操作網絡資源。 讀寫文本格式的數據 read_csv和read_table可能會用到

原创 《利用Python進行數據分析》第五章-pandas的數據結構介紹

pandas的數據結構介紹 要使用pandas,你首先就得熟悉它的兩個主要數據結構:Series和DataFrame。雖然它們並不能解決所有問題,但它們爲大多數應用提供了一種可靠的、易於使用的基礎。 In [1]: from pandas

原创 numpy基礎入門-多維數組對象

Numpy,即Numeric Python是高性能科學計算和數據分析的基礎包。NumPy爲我們提供了豐富的數學函數、強大的多維數組對象以及優異的運算性能。NumPy與SciPy、Matplotlib、SciKits等其他衆多Python科

原创 《利用Python進行數據分析》第5章 pandas的數據彙總與處理缺失數據

彙總和計算描述統計 pandas對象擁有一組常用的數學和統計方法。它們大部分都屬於約簡和彙總統計,用於從Series中提取單個值(如sum或mean)或從DataFrame的行或列中提取一個Series。 In [1]: from pan

原创 朝陽醫院數據處理分析實例

數據分析的步驟:提出問題→理解數據→數據清洗→構建模型→數據可視化 目標數據:2018年朝陽醫院銷售數據.xlsx 業務部門下發了一項業務分析目標,把數據發給我的時候就在思考該怎麼分析,接下來一起探討怎麼進行簡單的數據分析 一、提出業務

原创 《利用Python進行數據分析》第10章 時區處理筆記

時區處理 在Python中,時區信息來自第三方庫pytz,它使Python可以使用Olson數據庫(彙編了世界時區信息)。 有關pytz庫的更多信息,請查閱其文檔,時區名可以在文檔中找到,也可以通過交互的方式查看 from pandas

原创 統計學的置信區間

有時候無法給出足夠正確的結果。我們使用的是樣本,沒有使用整個總體,只是得到最佳的點估計量,存在着小心的誤差。不使用精確值作爲總體均值的估計值,但是我們可以指出某個區間來估計。 一、置信區間簡介 置信區間展現的是,這個總體參數的真實值

原创 檢驗假設:特魯普效應是否存在?

特魯普效應測試 特魯普效應是著名的心理學現象,展示了人們對事物的認知過程已是一個自動化的歷程。當有一個新的刺激出現時,如果它的特徵和原先的刺激相似或符合一致,便會加速人們的認知;反之,若新的刺激特徵與原先的刺激不相同,則會干擾人們的認知

原创 單樣本檢驗:引擎排放標準是否達標?

單樣本檢驗 案例練習 根據政府要求新排放標準:引擎排放平均值<20ppm,纔到達環保的要求。 有某家生產汽車引擎的公司,需要測試該公司的引擎排放是否達到標準。 現在有10臺引擎供測試使用,每一臺的引擎排放水平的數據分別爲:15,6,16

原创 《利用Python進行數據分析》第7章 字符串操作與正則表達式

字符串操作 Python有簡單易用的字符串和文本處理功能,大部分文本運算都直接做成了字符串對象的內置方法。對於更爲複雜的模式匹配和文本操作,則可能需要用到正則表達式。 字符串對象方法 以逗號分隔的字符串可以用split拆分成數段 In [