原创 機器學習方法篇(24)------理解RL中的MDP

● 每週一言 珍惜當下,是對未來最好的承諾。 導語 上一節介紹了增強學習的一些基本概念,並提到了增強學習被廣泛應用的各種場景。那麼,增強學習在這些應用當中到底是如何起作用的?換言之,增強學習的優化目標是什麼? MDP 我們知道, Alph

原创 機器學習方法篇(25)------RL價值學習方法

● 每週一言 對待別人的輕視,最好的回擊是站在更高的位置。 導語 上一節講了如何理解增強學習中的馬爾科夫決策過程,並舉了具體的例子來描述其求解方法,對算法熟悉的人或許已經看出上節示例中使用的方法是動態規劃學習法。那麼,除了動態規劃法,增強

原创 機器學習方法篇(26)------蒙特卡羅方法

● 每週一言 易怒與躁動,是不成熟的表現。 導語 蒙特卡洛,是袖珍之國摩納哥的一座賭城名字。馮·諾依曼用一個賭城的名字命名蒙特卡洛方法,增加了這個方法的神祕性。那麼,MC的算法思想是什麼? 蒙特卡羅方法 如上一節所述,MC是一種基於樣本而

原创 機器學習方法篇(28)------降維和度量學習

● 每週一言 不親身經歷,不妄加評論。 導語 在特徵提取過程中,有時候會遇到特徵維數非常大(維數災難)的情況,這種情況會帶來兩個主要問題:一是樣本稀疏,會極大削弱特徵的表達能力;二是高維數所帶來的龐大計算量。降維和度量學習便是維數災難的解

原创 統計分析之爲什麼需要統計

● 每週一言 心中有數,才能氣定神閒。 導語 從本週起,小鬥開始寫統計分析相關的文章。 特徵的優劣直接決定了模型是否奏效,而特徵提取的關鍵則是充分理解數據。一名優秀的算法工程師,一定先是一名優秀的統計(跑數)工程師。那麼,我們爲什麼需要統

原创 梯度消失和梯度爆炸

● 每週一言 時間,是成長的必要代價。 導語 在機器學習模型訓練的常見問題中,除了會遇到過擬合、欠擬合問題,還有一類問題也經常出現,那便是 梯度問題。梯度問題具體是什麼?又有哪些應對之法? 梯度問題 梯度問題出現在深度神經網絡的殘差反向傳

原创 機器學習方法篇(21)------密度聚類法

● 每週一言 別讓偶爾的關心打敗習慣的溫暖。 導語 前面介紹了層次聚類法,在聚類效果上,層次聚類的最大問題是:有可能聚出鏈狀類。本節要講的 密度聚類法 可以克服這個缺點,其原理也更接近於直觀意義上的聚類。那麼,密度聚類的思想是什麼?又有哪

原创 機器學習方法篇(23)------增強學習入門

● 每週一言 別讓夢想的附屬品喧賓奪主。 導語 在小鬥去年五月份寫的 AlphaGo技術剖析:揭開圍棋大腦的神祕面紗 這篇介紹AlphaGo的文章中講到,AlphaGo之所以能戰勝人類頂尖的圍棋手,主要是 增強策略網絡 的功勞。而增強策略

原创 什麼是管道?

● 每週一言 如果有不一樣,就努力不讓它一樣。 導語 一說到管道,我們可能想到的是超級瑪麗的下水道,亦或是曾經流行一時的小遊戲flappy bird。而這裏要講的是計算機中的管道,確切的說是linux操作系統中的管道。那麼,linux中的

原创 機器學習方法篇(20)------層次聚類法

● 每週一言 如果有人相信你,給你機會,你就有義務加倍努力。 導語 前面介紹了劃分聚類法,在劃分聚類中,通常需要指定聚類個數,這樣指定的個數往往不是最優個數。本節要講的層次聚類法,更關心的是同類別樣本之間的相似性,而非聚類個數。那麼,層次