原创 Policy Evaluation之Doubly Robust論文講解

● 每週一言 不用擔心自己有多努力,因爲每個人身邊總會有個人比你更努力。 導語 前一篇文章已經鋪墊好了增強學習評估的概念,幾乎所有對強化學習策略評估的方法都是基於重要性採樣展開。其中最經典的方法,莫過於ICML2011上出現的Doub

原创 理解增強學習的評估

● 每週一言 潛能,通常是逼出來的。 導語 在前面機器學習方法篇系列中,小鬥給大家簡單介紹了什麼是增強學習,以及增強學習最基礎的幾個算法概念(MDP、DP、MC、TD)。基本上,策略函數的優劣決定了整個模型的好壞。那麼,如何評估增強學

原创 幾何分佈和二項分佈有什麼區別?

● 每週一言 越長大越渺小。 導語 各種常見的分佈中,二項分佈和幾何分佈經常同時出現,在前面講泊松分佈的時候也簡單提到了二項分佈。那麼,幾何分佈是什麼分佈?和二項分佈有什麼區別? 幾何分佈 講泊松分佈的時候提到,二項分佈的概率公式如下

原创 什麼是內網穿透?

● 每週一言 由因推果易,由果推因難。 導語 有時候,我們在外想要訪問家裏主機的資料,要麼由於主機處於家庭路由器下,是非公網IP,要麼就是是運營商隨機分配的一個公網IP,都很難直接連上主機獲取資料。那麼,有什麼辦法可以解決這一難題?答

原创 認識生活中的泊松分佈

● 每週一言 有些人推動生活走,有些人則被生活推着走。 導語 公交地鐵站根據每天客流量的變化安排班次,銀行根據每天的排號人數決定開放櫃檯數,包子粥鋪根據每天賣出多少碗粥和多少個包子來充分備貨……這一類常見的生活問題都和泊松分佈息息相關。

原创 機器學習方法篇(29)------主成分分析

● 每週一言 評論家通常比實幹家來的容易。 導語 上一節介紹了什麼是降維,以及降維解決的問題。本節將介紹線性降維中的主成分分析PCA的具體算法思想和步驟。 主成分分析 主成分分析,顧名思義就是提取出主要的成分。直觀上理解,降維其實就是從稀

原创 樣本不均衡問題調研

● 每週一言 本真思考,不汲汲以求。 導語 在有監督模型訓練中,多多少少都會遇到樣本不均衡(Imbalanced Data)的問題,樣本不均衡將導致模型學習不到想學到的知識。 比如癌症預測模型,相比健康人而言,癌症病人的數量本來就很少,數

原创 機器學習方法篇(22)------模型聚類法

● 每週一言 思考如腳印,踩的越深走的越穩。 導語 前面已經講完三種聚類方法,剩下的模型聚類法,主要分爲基於概率模型聚類和基於神經網絡模型聚類兩種。 其中基於概率模型的聚類方法較爲流行。而在概率模型聚類法中,最典型、也最常用的就是高斯混合

原创 搜索算法與學習方法論

● 每週一言 聞道有先後,術業有專攻。 導語 去年的基礎算法系列中並未講到搜索算法,考慮到搜索算法的重要性和其思想的普適性,本節就來講講搜索算法的基本原理,以及其中所表現的學習方法論。 搜索 搜索顧名思義,即對關係數據集的元素逐一進行檢索

原创 爲什麼樣本方差計算是除以n-1?

● 每週一言 動嘴,動腦,都不如動手去做。 導語 在分析樣本數據情況時,都需要看一看方差。在概率統計學中,方差是衡量數據離散程度的一種度量,樣本的方差越大,樣本間的偏離程度就越大,反之越小。而在數據量巨大或者較難獲得總體樣本時,按照方差標

原创 機器學習方法篇(30)------線性判別分析

● 每週一言 想工作高效,合作不可或缺。 導語 上一節介紹了PCA降維,PCA是一種無監督降維方法。本節將介紹另外一種常見的有監督降維方法,線性判別分析LDA,以及其具體的算法思想和步驟。 線性判別分析 我們知道,降維的最終目的是一方面能

原创 機器學習方法篇(27)------時序差分方法

● 每週一言 智商決定深度,而情商決定高度。 導語 前面分別講解了增強學習當中的動態規劃方法和蒙特卡洛方法的算法思想。在實際問題當中,DP通常無法或者很難得到問題的真實模型結構,MC則很難估算一次行動的最終價值獎勵。 時序差分方法結合了動

原创 ks:能定閾值的評價指標

● 每週一言 既有工作又有生活,人生纔沒那麼無趣。 導語 之前講解過AUC評價指標,AUC能很好地描述模型整體性能的高低。除了AUC,還有一個指標也能達到相同的效果,那便是ks。不僅如此,ks還能給出最佳的劃分閾值。那麼,ks具體是什麼指

原创 什麼是極大似然估計?

● 每週一言 堅持一定是有毅力,但有毅力不一定能堅持。 導語 統計學中,我們經常能聽到極大似然估計,或者最大似然估計,它是一種參數估計方法。在機器學習中,邏輯迴歸就是基於極大似然估計來計算的損失函數。那麼,如何直觀理解極大似然估計? 極大

原创 特徵選擇:最合適的往往就在身邊

● 每週一言 當你命運遭受打擊的時候,千萬要抗住,有可能下一把就是王牌。 導語 特徵工程,是機器學習中必不可少的重要一環。在諸如kagglers、kddcup以及國內的天池大數據競賽等比賽中,top的優勝隊伍通常並不是使用了什麼高深的算法