原创 強化學習——(1)Policy Gradient

文章目錄1. 基礎介紹2. 難點3. Policy 算法3.1 Policy-based 方法3.1.1 改進點 1 增加baseline3.1.2 改進點 2 調整Reward3.2 與深度學習區別4. 知識點回顧4.1 Epi

原创 C均值聚類

文章目錄1. 標準C-Means1.1. 基本思路1.2. 樣本在類間調整思路1.3. 具體步驟1.4. 初始化類的方法1.4.1 選擇代表點1.4.2 初始類劃分2. IOSDATA2.1 簡介2.2 算法流程2.2.1 符號釋

原创 0 圖神經網絡序言——cs224w

1. 簡介 1.1 世界中的圖 在真實世界中,每個人都不是獨立的個體,人們通過交流和電話進行信息的溝通,這都都是圖的一部分。我們想要知道他們都代表什麼意思,就需要將這些關係進行編碼,也就是圖的表示。 例如: 在生物提供,各種分子

原创 計算機視覺(一)—— 目標檢測和邊界框

文章目錄1. 什麼是目標檢測2. 目標檢測大致思路2.1 邊界框2.2 合理的邊界框?2.2.1 某一種錨框的生成方法2.2.1.1 方法描述2.2.1.2 代碼2.2.2 錨框優劣的評定2.2.2.1 基本概念2.2.2.2 代

原创 pytorch中謎一樣的索引賦值法

test import torch nums = 3 # 首先,我們隨機生成一個3*5的矩陣 a = torch.randn(nums, 5) # 在列的維度(dim=0),取每列的最大值 overlap_for_each_pri

原创 2 PageRank—cs224w

文章目錄1. 什麼是PageRank2. PageRank的數學原理3. 工程中的PageRank4. 參考文獻 1. 什麼是PageRank 在很久很久以前,點擊谷歌搜索之後,每個網址的排名就是根據pagerank進行計算的。所

原创 1 圖的度量——cs224w

1. 怎麼衡量一個網絡 有四個指標: 1.1 Degree Distribution 度的分佈直方圖:統計不同度的個數。將其歸一化後,則反映了其分佈 1.2 path 有向圖和無向圖之間距離的長度不同 有了節點之間的度量方

原创 Pytorch構建模型的幾種方法

原文地址 假設構建一個網絡模型如下: 卷積層–>Relu層–>池化層–>全連接層–>Relu層–>全連接層 import torch import torch.nn.functional as F from collections

原创 分級聚類方法

文章目錄1. 算法思想2. 具體步驟3. 兩個類之間的相似性度量4. 缺點 1. 算法思想 分級聚類方法(hierachical clustering)。聚類的結果可能是NNN類也可能是111類。 因此,在歸類的過程中可以從NNN

原创 三維重建之DLT method

1 基本概念 我們的目標是,首先在真實世界中選取特定的點,測量其座標(這個是人爲可以測量得到的),然後觀察它在圖像中的座標,估計相機的內、外參數,利用相機的內外參數,就可以計算真實世界中任意點的座標。 2 引言 我們使用攝像機對物

原创 Reinforcement Learning——Chapter 2 Multi-armed Bandits

1. Perface 強化學習與其他學習方法最大的區別在於,強化學習 it uses training information that evaluates the actions taken rather than instr

原创 Reinforcement Learning——Chapter 1 Introduction

Introduction 強化學習是一種從與環境交互中直接獲得goal-direxted learning的方法。 1.1 Reinforcement Learning 強化學習有兩個主要的特徵:trial and error(不

原创 神經網絡——(GAN之二)

1. GAN的理論 在圖片生成過程中,我們的目標其實是存在一定的分佈的,假設在整個圖像空間中,藍色部分的點可以生成人臉,其他區域的臉則不能生成人臉。那麼,我們的目的是尋找藍色區域的概率密度函數 1.1 最大似然估計與GAN 一般

原创 神經網絡基礎——(GAN之一)

1. Basic idea of GAN 1.1 基本思路 在實際的code中,往往將Generator和Discriminator合起來當做一個巨大的network,input是vector,output就是一個value,

原创 強化學習 —— (4)A3C

1. Policy Gradient的不足 在Policy Gradient中提到,Policy Gradient 算法在計算Reward時需要對數據進行採樣: 在採樣的過程中,有很大的隨機性,不太穩定。那麼,能不能直接通過估計