原创 數據競賽入門 #task1 EDA

二手車交易預測-task1 EDA 採用pandas_profiling pandas_profiling 簡直是不會編程的手殘黨福音啊,這次eda偷了一下懶,直接用這個,省去了許多代碼,就是運行時間太長,[31×150000]的

原创 統計學基本知識 # datawhale 任務三

假設檢驗 基本原理 假設檢驗是數理統計中根據一定假設條件由樣本推斷總體的一種方法,依據的原理是小概率事件原理,即小概率事件在一次試驗中是幾乎不可能發生的。 基本概念與基本步驟 基本步驟 建立假設——原假設與備擇假設 原假設記作H

原创 統計學基本知識#datawhale 任務一,二

按照網易雲課堂可汗學院統計學進度,從第1課~34課 描述性統計 數據展示 條形圖 線型圖 餅圖 箱線圖 莖葉圖 各種作用就不一一闡述了,比較基礎。 數據數字特徵 表示數據集中趨勢:反映了一組數據向某一中心值靠攏的程度。 參考

原创 統計學基本知識 #datawhale 任務四

線性迴歸 平方誤差 每個點同迴歸直線的豎直距離 SEline=∑i=1n(yi−(mxi+b))2SE_{line} = \sum^n_{i=1}(y_i -(mx_i + b))^2SEline​=∑i=1n​(yi​−(mxi

原创 python新手智能猜數代碼練習

python智能猜數代碼練習 import random print("遊戲開始!") answer = round(random.uniform(0,10),1) count = 10 print(answer) def is

原创 統計學基本知識 #datawhale 任務三

統計學 分佈的描述 偏態 表示數據分佈的不對稱性,指數據分佈的偏斜方向和程度。測定指標用偏態係數SK表示。偏態有正負之分。 峯度 表示數據分佈的尖峭程度或峯凸程度,根據變量值的集中與分散程度,峯度一般可表現爲三種形態:尖頂峯度、平

原创 excel # task4

作圖 任務一 任務二 任務三 任務四 按照自己的理解分成5類進行統計。 任務五 用文本是否包含該字符串分成5個行業進行統計並作圖。

原创 Excel組隊學習#task2

task2 文件爲data analyst 任務一 1.1 Q列中用文本提取函數對P列進行提取,先用FIND找到第一個k,然後退一個位置便是我們要提取文本的最終位置。再用MID嵌套可得。需要注意的是,因爲是文本提取,所以返回值格

原创 Excel組隊學習打卡(一)

Excel 基礎操作 基礎界面的認識 開始 開始裏基本都是關於單元格里字體的格式操作,與單元格的操作。其中條件格式與排序篩選是數據分析時關注的重點。值得注意的是,左上角的快速啓動欄十分有用,對於日常使用頻繁的函數或是按鍵可以直接添

原创 Excel組隊學習 # task3

Vlookup,Hlookup,lookup的區別與使用 vlookup是以行爲查找單位的,即豎直地查找。hlookup是以列爲查找單位的,即水平地查找,lookup則可以認爲是前兩種的模糊查找。根據需要可以進行選擇。需要注意絕

原创 爬蟲第八期 #Task 2

Beautiful Soup bs和urllib爬取丁香園評論 bs 是一個強大的html解析器,通過解析html把內容轉化爲一個文檔樹,每個樹節點都是一個python對象,可以調用,4個對象種類: Tag(一個個標籤) Nav

原创 Excel # task5

任務一 任務二 task4 補充

原创 爬蟲第八期 #task 1

爬蟲基礎 get和post請求 get 和 post 請求是http 協議中本地計算機與服務器的交互方式,在爬蟲中我們需要用腳本模擬本機計算機向服務器發出請求並解析發回的html文件。get和post有使用上的區別。 區別 ge