原创 SQL 按指定順序排列

問題: table-------nobel(yr, subject, winner) 找1984年的獲獎者(winner),按照獲獎項目(subject)升序排列,獲獎項目一樣的,按照獲獎者升序排列,並且當獲獎項目是Chemist

原创 線性迴歸及正規方程和梯度下降求解及正則化

目錄 1.定義 2.求解   3.迴歸性能評估  4.總結           線性迴歸是最爲簡單、易用的迴歸模型。從某種程度上限制了使用,儘管如此,在不知道特徵之間關係的前提下,我們仍然使用線性迴歸器作爲大多數系統的首要選擇。 1.定義

原创 隱馬爾可夫模型(2) 概率計算方法

1直接計算方法 10.10的推導 P(I∣λ)=P(i1,i2,...,iT∣λ)P(I|\lambda)=P(i_1,i_2,...,i_T|\lambda)P(I∣λ)=P(i1​,i2​,...,iT​∣λ)  

原创 概率分佈、概率分佈函數

離散型隨機變量 概率函數 概率函數是用函數的形式表示概率 Pi=P(X=ai)(i=1,2,3,4,5,6)P_i=P(X=a_i)(i=1,2,3,4,5,6)Pi​=P(X=ai​)(i=1,2,3,4,5,6) 在這個

原创 抽樣與抽樣分佈——中心極限定理、點估計

1. 抽樣 1.1 簡單隨機樣本 從容量爲N的總體中,抽取一個容量爲n的樣本,如果容量爲n的樣本中,每一個可能的樣本都以相等的概率被抽取,那麼該樣本爲簡單隨機樣本。 1.2 隨機樣本 從一個無限總體中抽取一個容量爲n的樣本,如果滿足:(1

原创 掌握excel這三個技巧,讓你的工作事半功倍(二)

上一期講了 複製副本、重排窗口、交換列, 這三個技巧,這一期還是講三個小技巧,喜歡的話分享給朋友,點右下角看一看的小花花~   1.調整寬度:單選、多選 2.快速到達表格最下、最上 3.凍結首行 1.調整寬度 幾年前我還是個職場新人的時候

原创 決策樹(ID3、C4.5)

決策樹是什麼 決策樹由結點(node)和有向邊(directed edge)組成。 結點有兩種類型:內部結點(internal node)和葉結點(leaf node)。 內部結點表示一個特徵或屬性。 葉結點表示一個類,是無法再

原创 假設檢驗(一)

1. 假設檢驗的基本原理 1.1怎樣提出假設 假設檢驗 對總體參數提出假設的基礎上,利用樣本信息來判斷假設是否成立的統計方法。   原假設/零假設 研究者想收集證據予以推翻的假設,用Ho表示。 等號總是放在原假設上。 原假設表達的含義:參

原创 區間估計——置信區間

可參考上一篇博文  抽樣與抽樣分佈——中心極限定理、點估計 1. 區間估計 1.1 區間估計 總體參數估計的一個區間,確信該區間將參數值納入其中。 區間估計的形式:點估計±邊際誤差 1.2 置信區間 區間估計中,由樣本估計量構造出的總體

原创 天池二手車交易價格預測--賽題理解與數據探索性分析

一、賽題理解 1.1賽題概述 賽題以預測二手車的交易價格爲任務,該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。 具體的數據表如下: SaleID - 銷售樣本ID name -

原创 掌握excel這個技巧,讓你的工作事半功倍(三)

前兩期共給大家分享6個操作小技巧。 這一期我再來分享幾個快速選中區域的技巧: a.選中全部數據 b.選中任意區域的數據 c.選中整列數據 d.ctr+shift+向下箭頭選中區域 e.按條件選中數據 快速選中數據區域 a:選中全部數據 鼠

原创 淺談數據分析流程和思路

我的公衆號 DataLion ,每天分享數據分析相關知識,喜歡就關注~ 一、流程 1、爲什麼分析? 首先,你得知道爲什麼分析?弄清楚此次數據分析的目的,避免不符合目標反覆返工。 2、分析目標是誰? 確定好分析維度和指標。 3、想達到什麼效

原创 掌握excel這三個技巧,讓你的工作事半功倍(一)

在數據分析師的日常工作中,我們會經常處理excel表格,這一期我來分享幾個我工作中經常使用的小技巧,掌握這幾個技巧,可以讓你節省很多時間。 1.複製副本 2.重排窗口 3.交換列 1.複製副本 拿到一個任務,要處理招聘網站的數據。 可以