原创 強化學習 9: 當 Action 的空間連續時

如果 Action 的空間不是離散的而是連續的時候要怎麼做呢?之前騎自行車的例子中,action 可以是向左或者向右,現在的話可能是一個實數值的區間。例如在機器人控制中就經常是這樣的情況,我們通過電機控制着 agent 的所有關節還有四肢,

原创 如何應用 BERT :Bidirectional Encoder Representations from Transformers

上一篇文章介紹了 Google 最新的BERT (Bidirectional Encoder Representations from Transformers) ,這個模型在 11 個 NLP 任務上刷新了紀錄。Google 還開源了 B

原创 5 分鐘入門 Google 最強NLP模型:BERT

BERT (Bidirectional Encoder Representations from Transformers)10月11日,Google AI Language 發佈了論文BERT: Pre-training of Deep

原创 一天讀一本書的祕密

今天讀了兩本關於快速閱讀的書,一本是《洋蔥閱讀法》,一本是《快速閱讀術》。兩本書裏都給出了可以快速閱讀的方法和步驟。他們有一些重合的地方,也各自有一些獨特的觀點。其中《快速閱讀術》有幾個觀點刷新了我對快速閱讀的認識。我一直以爲半小時內快速閱

原创 《斯坦福大學人生設計課》-你希望你的人生是工業品,還是藝術品?

今天一口氣讀完了《斯坦福大學人生設計課》這本書,大概用了兩個小時。這本書吸引我的是它的名字叫做人生設計,我們通常都是知道人生規劃這個詞,而設計相比於規劃來講,給我一種更自由更浪漫的感覺,讓我非常想要進去讀一下人生到底應該如何設計。我一直都覺

原创 《不會被機器替代的人》:智能時代的生存策略

今天讀了一本書 《不會被機器替代的人》,講的是智能時代的生存策略人工智能時代人們經常討論的問題是什麼樣的工作不會被人工智能替代。一開始人們以爲,高級的腦力勞動不會被替代,比如醫生、律師,可是現在醫生、律師的活都可以幹,而且比人的效率高很多。

原创 強化學習第6課:什麼是 Crossentropy 方法

上次講了馬爾科夫決策過程,今天讓我們來看看要如何求解這個過程?求解方法不止有一個, 有一種思路是,我們有一個 policy,即有了行爲和狀態的概率分佈。 對其進行初始化,可以是隨機的,也可以根據具體問題用一些先驗知識初始化。 然後想要

原创 3 個方法讓計劃可以達成

生活中,我們經常會做計劃,但很多都完成不了,經常以失敗而告終,下面介紹 3 個方法讓我們的計劃可以達成。1. 按月制定計劃記得上大學的時候,我經常會做學習計劃,但是卻沒能達成多少,那是因爲我用了一個錯誤的方法,就是無論大事小事都計劃好,一個

原创 強化學習第5課:什麼是馬爾科夫決策過程

在強化學習中,有一個非常常見的決策過程叫馬爾剋夫決策過程。它和我們前面講的決策過程是有一樣的結構,只不過它會有更多限制。這裏同樣也有 agent 和環境,只不過還就多了一個狀態,用 s 來表示。狀態 state 是 agent 可以在環境中

原创 強化學習第3課

強化學習有一些決策過程。 例如在橫幅廣告這個任務中,網站就是它的 agent ,是可以採取一些行動的。這個網站可以觀察到用戶們所瀏覽的網頁,並且能夠採取一個行動。它的 action 就是,挑選一個橫幅,然後運行網頁時就展示這個橫幅廣告。最後

原创 強化學習第4課:這些都可以抽象爲一個決策過程

上圖是一個一般的決策過程,裏面包括代理和環境。這個過程有兩步,首先你的代理會觀察環境的一些特質,有時是傳感器感知到的,有些是輸入的用戶特徵。 然後代理會選擇一個行爲,將這個行爲反饋給環境。 之後代理不僅僅會收到在這個行爲下的環境的反饋,

原创 強化學習第2課:強化學習,監督式學習,非監督式學習的區別

圖片來源現在讓我們看一下強化學習和其他機器學習方法的對比。在監督式學習中,我們有數據集,還有數據對應的標籤。主要的任務是要讓預測值儘量接近於這些標籤。監督學習還有一個很重要的特點,就是它的數據要滿足獨立性。這對於使用SGD等算法,需要對數據

原创 強化學習第一課:像學自行車一樣的強化學習

機器學習算法主要可以分爲監督式,非監督式,強化學習三類。在監督式學習中,我們有數據 x 和標籤 y。我們想要找到一個函數來連接 x 和 y。可以選擇決策樹,線性迴歸等模型,然後訓練這些模型使損失函數達到最小。例如我們有一個橫幅廣告預測點擊率

原创 你找到生命中最重要的那件事了嗎?

身處一個被信息裹挾的時代,一天之內承受的信息量比前人一輩子還要多。我們有好多想做的事情,願望清單,讀書清單,觀影清單等等等。在微習慣app裏能看到好多人每天打卡二三十個習慣,而且還都堅持了好幾百天。我們很容易就把大量精力花在無意義的事情上了

原创 AI 時代,你和紙張的關係是什麼?

家裏有太多紙類文件了,每次收拾完之後,不到兩天又積攢了一大堆,幾乎每天都有從郵局寄過來的信件:醫院的賬單,電費,煤氣費,信用卡賬單,各種宣傳單,促銷的優惠券等等。如果不及時整理,就會佔用着空間,影響了心情。剛來的時候我在想爲什麼還要用紙質的