計算機視覺的數學基礎

原創

2020-02-23 06:55

本文轉載高博士的博客
主要介紹了在計算機視覺中關於3D變換矩陣的數學方法。

旋轉矩陣是一種3×3的正交矩陣，

這裏R爲3D的旋轉矩陣，同樣的，t爲3D的平移矢量。
由於3D旋轉都可以歸結成按照某個單位向量n進行大小爲θ的旋轉。所以，已知某個旋轉時，可以推導出對應的旋轉矩陣。該過程由羅德里格斯公式表明，由於過程比較複雜，我們在此不作贅述，只給出轉換的結果：　

這裏公式雖然較爲複雜，但實際寫成程序後，只需知道旋轉方向和角度後即可完成計算。另一件有趣的事是，如果用

表示與n對應的一個反對稱矩陣，那麼有：
（李代數會對後面的指數形式做出解釋）
根據此式，我們也可以從任意給定的旋轉矩陣，求出對應的轉軸與轉角。關於轉角θ，我們對上式兩邊求矩陣的跡，可得：

可得
關於轉軸n，由於旋轉軸上的向量在旋轉後不發生改變，說明

因此，只要求此方程的解向量即可。這也說明n是R特徵值爲1的一個特徵向量。
總之，讀者應當明白在3D時，旋轉和平移仍可用轉移矩陣T來描述，其結構也與2D類似。而T4×4構成了三維歐氏變換羣SE(3)。注意到T雖然有16個變量，但真正的自由度只有6個，其中3個旋轉，3個位移。
歐拉角是一種廣爲使用的姿態描述方式，以直觀見長。在最常用的歐拉角表達方式中，我們把旋轉分解成沿三個軸轉動的量：滾轉角－俯仰角－偏航角(roll-pitch-yaw)。它的好處是十分的直觀，且只有三個參數描述。缺點是會碰到著名的萬向鎖問題：在俯仰爲±90∘時，表達某個姿態的形式不唯一。此外，它也不易於插值和迭代。一般不怎麼用，只有在驗證結果是否正確時，方便使用。
四元數
相比歐拉角，四元數(Quaternion)則是一種緊湊、易於迭代、又不會出現奇異值的表示方法。它在程序中廣爲使用，例如ROS和幾個著名的SLAM公開數據集、g2o等程序都使用四元數記錄機器人的姿態。
四元數僅是3D姿態的一種表達方式，我們用一個單位四元數表達原本用旋轉矩陣表示的三維旋轉。這樣做一個直接的好處是省空間。一個旋轉陣有9個分量，但只有三個自由度。那麼，能不能用三個數來描述呢？可以是可以的，但不可避免會出現奇異的情況，歐拉角就是一個例子。而四元數，比三維向量多了一個分量，從而可以無奇異地表示各種姿態。
四元數是Hamilton找到的一種擴展的複數。一個四元數擁有一個實部和三個虛部（故事上說他原先找了很久帶兩個虛部的，結果怎麼也找不到，最後豁然開朗找到了三虛部的四元數）：

其中i,j,k爲四元數的三個虛部。這三個虛部滿足關係式：

由於它的這種特殊表示形式，有時人們也用一個標量和一個向量來表達四元數：

這裏，標量s稱爲四元數的實部，而向量v稱爲它的虛部。如果一個四元數虛部爲0，稱之爲實四元數。反之，若它的實部爲0，稱之爲虛四元數。該定義和複數是相似的。
四元數可以表示三維空間中任意一個旋轉。與旋轉矩陣中類似，我們仍假設某個旋轉是繞單位向量進行了角度爲θ的旋轉，那麼這個旋轉的四元數形式爲：

事實上，這還是一個模長爲1的四元數，稱爲單位四元數。反之，我們亦可通過任意一個長度爲1的四元數，計算對應旋轉軸與夾角：

若某個四元數長度不爲1，我們可以通過歸一化將它轉換爲一個模長爲1的四元數。對旋轉角的四元數形式的θ加上2π，我們得到一個相同的旋轉，但此時對應的四元數變成了−q。因此，在四元數中，任意的旋轉都可以由兩個互爲相反數的四元數表示。同理，取θ爲0，則得到一個沒有任何旋轉的四元數：

四元數和通常複數一樣，可以進行一系列的運算。常見的有四則運算、內積、求逆、共軛、求指數／對數等等。表示姿態時，它還可以進行插值。
3D空間也可以用單位四元數表示旋轉。假設一個空間三維點v=[x,y,z]∈R3 ，以及一個由旋轉軸和夾角n,θ指定的旋轉，首先，我們把三維空間點用一個虛四元數來描述：

然後，參照旋轉角的四元數表示，用另一個四元數q表示這個旋轉：

那麼，旋轉後的點p′p′即可表示爲這樣的乘積：

可以驗證，計算結果的實部爲，故計算結果爲純虛四元數。其虛部的三個分量表示旋轉後3D點的座標。
由於任意單位四元數都可表示爲一個3D旋轉，即SO(3)中的元素，我們可以找到一個旋轉矩陣與之對應。最簡單的方式是由四元數q解出旋轉角θ和旋轉軸n，但那樣要計算一個arccos函數，代價較大。實際上這個計算是可以通過一定的計算技巧繞過的。爲省略篇幅，我們直接給出四元數到旋轉矩陣的轉換方式。
設四元數q=q0+q1i+q2j+q3k，對應的旋轉矩陣R爲：

反之，由旋轉矩陣到四元數的轉換如下。假設矩陣爲R={mij},i,j∈[1,2,3]，其對應的四元數q由下式給出：
其他幾種變換
1). 相似變換比歐氏變換多了一個自由度，7個自由度，它允許物體進行自由地縮放。

　　注意到旋轉部分多了一個縮放因子s，它在x,y,z三個座標上形成均勻的縮放。類似的，相似變換的乘法也構成羣，稱爲Sim(3)。由於含有縮放，相似變換不再保持圖形的面積不變。
2). 仿射變換的矩陣形式如下：

　　與歐氏變換不同的是，仿射變換隻要求A是一個可逆矩陣，而不必是正交矩陣。在仿射變換下，直線的夾角會發生改變，但平行性質不變。這即是說，仿射變換把平行四邊形變爲平行四邊形。有12個自由度。平行行和體積比不變。
3). 射影變換是最一般的變換，它的矩陣形式爲:

　　它左上角爲可逆矩陣A，右上爲平移t，左下縮放aT。由於採用齊座標，當v≠0時，我們可以對整個矩陣除以v得到一個右下角爲1的矩陣；否則，則得到右下角爲0的矩陣。因此，這個矩陣在2D中一共有8個自由度，而在3D中一共有15個自由度，是現在提到的變換中最爲一般的。接觸平面的相交和相切。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cartographer編譯過程遇到未定義的dlclose@@GLIBC_2.2.5

1. 使用的安裝過程如下：先裝下這下面幾個依賴 sudo apt-get update sudo apt-get install -y python-wstool python-rosdep ninja-build 1. carto

莫奈的老旧三轮车

2020-07-08 09:14:34

SLAM：：g2o安裝和使用

g2o安裝和使用安裝依賴 sudo apt-get install libeigen3-dev libsuitesparse-dev qtdeclarative5-dev qt5-qmake 下載源碼 git clone https

2020-07-08 10:35:13

VSLAM：：[手寫VIO_課堂筆記]第三講(上)_基於優化的IMU與視覺信息融合(最小二乘問題)

1. 第三講(上)_基於優化的IMU與視覺信息融合(上) 第三講(上): (1)最小二乘問題的求解推導 (2)其中有LM算法的相關推導以及魯棒核函數的推導 1.1. 最小二乘與非線性優化 1.1.1. 最小二乘

2020-07-08 10:35:13

VSLAM：：[手寫VIO_課堂筆記]第一講_預備知識

1. 四元數的基本運算主要運算四元數乘法乘法性質滿足結合律不滿足交換律乘積的模等於模的乘積乘積的逆等於各個四元數的逆以相反的順序相乘其他運算 *四元數部分參考：旋轉矩陣、歐拉角、四元數理論

2020-07-08 10:35:13

利用Robosense 16線雷達跑cartographer 2D

首先，根據不同的雷達，瞭解雷達發佈的點雲消息。（IMU也是一樣，瞭解IMU發佈的點雲topic）。本文使用的是Robosense 16線激光雷達，暫時未使用IMU（建議6軸，再加上GPS定位精度會高很多）發佈PointCloud2類型的

合工大机器人实验室

2020-07-07 21:47:01

Cartographer編譯安裝

官網安裝教程：https://google-cartographer-ros.readthedocs.io/en/latest/compilation.html 不過由於網絡問題，可能在下載的時候會下載中斷。我會上傳我自己下載的到資源處，

合工大机器人实验室

2020-07-07 21:46:51

SLAM前端：ICP（Iterative Closest Point）

ICP算法是點雲配准算法，給出兩組點雲，可以計算出兩組點雲的位姿關係R、t。問題數學表達爲：已知兩組點雲：求R、t使

共和国之辉

2020-07-07 14:29:18

SLAM 整體性總結

VSLAM方法框架：整個SLAM大概可以分爲前端和後端，前端相當於VO（視覺里程計），研究幀與幀之間變換關係。首先提取每幀圖像特徵點，利用相鄰幀圖像，進行特徵點匹配，然後利用RANSAC去除大噪聲，然後進行匹配，得到一個pose信息（

追求卓越583

2020-07-07 14:11:01

SLAM前端：PnP（一）DLS、P3P

PnP是一類問題的統稱，是指通過多對點的3D位置及2D投影座標，來估計相機位姿R、t。場景一：視覺slam中在初始化後可以知道空間中一些點在世界座標系下的座標，在下一幀圖像進行特徵點匹配後，利用這些特徵點的3D座標及2D像素座標，PnP

共和国之辉

2020-07-07 13:52:13

SLAM前端：本質矩陣、基礎矩陣、單應矩陣

本質矩陣描述了相機內參已知的情況下同一個點不同視角下的關係，5自由度。即已知同一個點在兩幀圖像下的座標，兩個座標、相機內參、本質矩陣滿足對極約束條件（1-1）。基礎矩陣描述了同一個點在不同視角下的關係，7自由度。單應矩陣描述了同一平面

共和国之辉

2020-07-07 13:52:13

視覺SLAM：視覺SLAM中的李羣與李代數、左乘擾動模型

爲什麼引入李羣與李代數？ SLAM中對矩陣求導數的應用場景？什麼情況下用到李代數左乘擾動模型求導數？爲什麼不能用李羣求導？李羣與李代數的關係？李代數左乘擾動的理解？ 0 爲什麼引入李羣與李代數？ slam中後端優化需要用到求解最小二

共和国之辉

2020-07-07 13:52:12

SLAM前端（里程計二）：ORB特徵點匹配

（1）構建圖像高斯金字塔將圖像進行降採樣8次，每次尺度縮小1/1.2，如下圖所示：採用高斯金字塔的目的是解決特徵點尺度不變性，並且可以提取更多的關鍵點。高斯金字塔每個尺度代表了不同的距離，即低分辨率的圖像可以看做從遠處拍攝圖像的一部

共和国之辉

2020-07-07 13:52:11

SLAM前端：對極幾何、三角測量

對極幾何在ORBSLAM初始化過程中求解兩幀的R、t，輸入兩幀圖像的多對匹配點，對極幾何計算得到R、t 三角測量在單目ORBslam初始化過程中計算初始化點雲的3D座標，輸入兩幀的R、t+匹配特徵點的像素座標，輸出點的3D座標 1 對極幾

共和国之辉

2020-07-07 13:52:11

SLAM後端：位姿圖優化（Pose Graph）

BA優化時間跟特徵點數量有關，特徵點數量越多BA消耗時間越長。折衷做法是，在進行幾次優化後，將特徵點位置固定，不再優化特徵點，只優化相機位姿。位姿圖優化是一中方法。場景如下：

共和国之辉

2020-07-07 13:52:11

SLAM前端（里程計一）：ORB特徵點提取

ORB特徵 = Fast+描述子，Fast判斷該點是不是特徵點，描述子計算該特徵點的方向信息。 1 Fast角點（1）Fast規則如下圖，遍歷每個像素點，檢測在像素點附近的圓形窗口上的16個像素的灰度，如果有n個連續點都比中心像素的灰

共和国之辉

2020-07-07 13:52:10

24小時熱門文章

最新文章

最新評論文章