單目視覺三維重建

1. 單目視覺三維重建簡介

單目視覺三維重建是根據單個攝像頭的運動模擬雙目視覺獲得物體在空間中的三維視覺信息。已知單個攝像頭在兩個不同時間點上同時在空間中兩個不同位置的圖像等價於已知兩個攝像頭同一時間在空間兩個不同位置的圖像。所以問題分解爲：

（1）如何用單目視覺替換雙目視覺，即如何確定單個攝像頭在兩個不同時間點的空間轉換關係；

（2）根據雙目視覺確定圖像中物體的三維視覺信息。

2. 代碼實現

（1）標定攝像機獲得攝像機矩陣K（內參數矩陣）

內參數矩陣表示從歸一化圖像平面到物理成像平面的轉換關係。用OpenCV中的庫函數標定攝像機會出現很多問題，主要包括：

1）攝像頭分辨率：嘗試過使用手機攝像頭，現在的手機拍攝的圖片分辨率過高以至於找不到標定板的位置，因爲有可能是檢測角點的窗口範圍設置有限，所以，分辨率過高的圖像中的角點在窗口中水平方向和垂直方向的灰度梯度變化不明顯，角點部分由過多的像素過渡，在過小的窗口看起來角點更像是變化的弧線。可以通過下采樣的方式先降低圖像分辨率，檢測到模式後再上採樣恢復角點實際在圖像中的位置。然而，用筆記本的攝像頭則沒有這樣的問題出現。

2）設置模式大小：尋找標定板時，需要手動調整標定板對象點objpoint的容量，筆者這裏的容量爲9*6；如果不手動調整有可能找不到標定板。

攝像頭標定代碼如下：

import cv2
import numpy as np
import glob
################################################################################

print 'criteria and object points set'

# termination criteria
criteria = (3L, 30, 0.001)

# prepare object points, like (0,0,0), (1,0,0), (2,0,0) ....,(8,5,0)
objpoint = np.zeros((9 * 6, 3), np.float32)
objpoint[:,:2] = np.mgrid[0:9, 0:6].T.reshape(-1,2)

# arrays to store object points and image points from all the images

# 3d point in real world space
objpoints = []
# 2d points in image plane
imgpoints = []
################################################################################

print 'Load Images'

images = glob.glob('images/Phone Camera/*.bmp')

for frame in images:
    
    img = cv2.imread(frame)
    imgGray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # find chess board corners
    ret, corners = cv2.findChessboardCorners(imgGray, (9,6), None)
    
    # print ret to check if pattern size is set correctly 
    print ret
    
    # if found, add object points, image points (after refining them)
    if ret == True:
        
        # add object points
        objpoints.append(objpoint)
        cv2.cornerSubPix(imgGray, corners, (11,11), (-1,-1), criteria)        
        # add corners as image points
        imgpoints.append(corners)

        # draw corners
        cv2.drawChessboardCorners(img, (9,6), corners, ret)

        cv2.imshow('Image',img)
        cv2.waitKey(0)
        cv2.destroyAllWindows()

################################################################################

print 'camera matrix'

ret, camMat, distortCoffs, rotVects, transVects = cv2.calibrateCamera(objpoints, imgpoints, imgGray.shape[::-1],None,None)
################################################################################

print 're-projection error'

meanError = 0
for i in xrange(len(objpoints)):
    imgpoints2, _ = cv2.projectPoints(objpoints[i], rotVects[i], transVects[i], camMat, distortCoffs)
    error = cv2.norm(imgpoints[i], imgpoints2, cv2.NORM_L2) / len(imgpoints2)
    meanError += error

print "total error: ", meanError / len(objpoints)
################################################################################

def drawAxis(img, corners, imgpoints):
    
    corner = tuple(corners[0].ravel())
    cv2.line(img, corner, tuple(imgpoints[0].ravel()), (255,0,0), 5)
    cv2.line(img, corner, tuple(imgpoints[1].ravel()), (0,255,0), 5)
    cv2.line(img, corner, tuple(imgpoints[2].ravel()), (0,0,255), 5)
    
    return img
################################################################################

def drawCube(img, corners, imgpoints):
    
    imgpoints = np.int32(imgpoints).reshape(-1,2)

    # draw ground floor in green color
    cv2.drawContours(img, [imgpoints[:4]], -1, (0,255,0), -3)

    # draw pillars in blue color
    for i,j in zip(range(4), range(4,8)):
        cv2.line(img, tuple(imgpoints[i]), tuple(imgpoints[j]), (255,0,0), 3)

    # draw top layer in red color
    cv2.drawContours(img, [imgpoints[4:]], -1, (0,0,255), 3)

    return img
################################################################################

print 'pose calculation'    
            
axis = np.float32([[3,0,0], [0,3,0], [0,0,-3]]).reshape(-1,3)
axisCube = np.float32([[0,0,0], [0,3,0], [3,3,0], [3,0,0], [0,0,-3], [0,3,-3], [3,3,-3], [3,0,-3]])
                   
for frame in glob.glob('images/Phone Camera/*.bmp'):
    
    img = cv2.imread(frame)

    gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
    ret, corners = cv2.findChessboardCorners(gray, (9,6), None)

    if ret == True:

        # find the rotation and translation vectors.
        rotVects, transVects, inliers = cv2.solvePnPRansac(objpoint, corners, camMat, distortCoffs)

        # project 3D points to image plane
        '''
        imgpoints, jac = cv2.projectPoints(axis, rotVecs, transVecs, camMat, distortCoffs)
        img = drawAxis(img, corners, imgpoints)
        '''
        
        imgpoints, jac = cv2.projectPoints(axisCube, rotVects, transVects, camMat, distortCoffs)
        img = drawCube(img, corners, imgpoints)
                
        cv2.imshow('Image with Pose', img)
        
        cv2.waitKey(0)
        cv2.destroyAllWindows()

標定結果如下。左圖出現鋸齒狀折線說明找到模式，右圖爲多個座標軸的組成的正方體的可視化。每個正方體的邊長爲3，測得黑格和白格的邊長即可獲得物體的實際長度，所以用在視覺測量方面很方便，即測量圖像中物體的實際長度。

（2）SIFT特徵點匹配

SIFT特徵點匹配首先獲得兩幅圖像的特徵描述子和關鍵點，然後在匹配時刪除匹配不符合要求的點。最後根據匹配合格的點計算基礎矩陣F。已知空間中的點在兩個物理成像圖像平面中的座標(x, y)和(x', y')，可以通過基礎矩陣計算出在圖像對中的另一個物理成像圖像平面中的極線。實現代碼如下：

<pre name="code" class="python">################################################################################

print 'SIFT Keypoints and Descriptors'

sift = cv2.SIFT()

keypoint1, descriptor1 = sift.detectAndCompute(img1, None)
keypoint2, descriptor2 = sift.detectAndCompute(img2, None)
################################################################################

print 'SIFT Points Match'

FLANN_INDEX_KDTREE = 0
index_params = dict(algorithm = FLANN_INDEX_KDTREE, trees = 5)
search_params = dict(checks = 50)

# flann = cv2.FlannBasedMatcher(index_params, search_params)
bf = cv2.BFMatcher()

matches = bf.knnMatch(descriptor1, descriptor2, k = 2)
################################################################################

good = []
points1 = []
points2 = []
################################################################################

for i, (m, n) in enumerate(matches):
         
    if m.distance < 0.7 * n.distance:
        
        good.append(m)
        points1.append(keypoint1[m.queryIdx].pt)
        points2.append(keypoint2[m.trainIdx].pt)

points1 = np.float32(points1)
points2 = np.float32(points2)

F, mask = cv2.findFundamentalMat(points1, points2, cv2.RANSAC)

# We select only inlier points
points1 = points1[mask.ravel() == 1]
points2 = points2[mask.ravel() == 1]

（3）已知內參數矩陣，計算基礎矩陣F和本徵矩陣E

基礎矩陣適用於未標定的攝像頭，假設空間點在兩個物理成像平面中的座標分別爲p = (u, v)和p' = (u', v')，則滿足transpose(p) *F*p = 0，*表示矩陣乘法。根據基礎矩陣的定義F = inverse(transpose(K)) * E * inverse(K)計算出本徵矩陣E。

################################################################################

# camera matrix from calibration
K = np.array([[517.67386649, 0.0, 268.65952163], [0.0, 519.75461699, 215.58959128], [0.0, 0.0, 1.0]])

# essential matrix
E = K.T * F * K

（4）根據本徵矩陣的旋轉和平移分量構造投影矩陣對P和P’

根據本徵矩陣E用SVD分解得到旋轉矩陣R和平移向量t，檢查旋轉矩陣R是否有效，根據旋轉矩陣的標準正交特性判斷旋轉矩陣的有效性。然後在旋轉矩陣有效的情況下構造投影矩陣P0和P1。

注：旋轉矩陣的有效性檢查非常重要。因爲實際上圖像的噪聲有可能導致特徵點的位置存在誤差，而且實際攝像機也並不是仿射攝像機，所以SVD分解有可能得不到有效的仿射結構。這裏暫時沒有深入原理（筆者暫時沒接觸過），所以沒有設置相關的參數調整來修正仿射結構。所以，如果得不到有效旋轉矩陣，重建是沒有意義的。

W = np.array([[0., -1., 0.], [1., 0., 0.], [0., 0., 1.]])
U, S, V = np.linalg.svd(E)

# rotation matrix
R = U * W * V
# translation vector
t = [U[0][2], U[1][2], U[2][2]]

checkValidRot(R)

P1 = [[R[0][0], R[0][1], R[0][2], t[0]], [R[1][0], R[1][1], R[1][2], t[1]], [R[2][0], R[2][1], R[2][2], t[2]]]
P = [[1., 0., 0., 0.], [0., 1., 0., 0.], [0., 0., 1., 0.]]

（5）有效特徵點三角化實現重建

已知（u,v）爲空間點在物理成像平面中的座標，則p = （u,v,1）爲空間點在物理成像平面中的齊次座標，inverse(K) * p = u，u = (x/z, y/z, 1)爲歸一化圖像平面中的齊次座標。根據兩個不同的歸一化圖像平面中的座標t和u和u1，以及投影矩陣P和P‘，構造線性方程組：lamb * u = PX和lamb' * u' = P'X，解線性方程組得到X = (x, y, z)。保存三軸座標至pointCloudX，pointCloudY，pointCloudZ，分開存儲便於繪製三維圖形。最後將三維座標點投影到物理成像平面中去，計算重投影后的座標點與原始圖像座標點之間的重投影誤差。

################################################################################

print 'points triangulation'

u = []
u1 = []
Kinv = np.linalg.inv(K)

# convert points in gray image plane to homogeneous coordinates
for idx in range(len(points1)):
    t = np.dot(Kinv, np.array([points1[idx][0], points1[idx][1], 1.]))
    t1 = np.dot(Kinv, np.array([points2[idx][0], points2[idx][1], 1.]))
    
    u.append(t)   
    u1.append(t1)
################################################################################

# re-projection error
reprojError = 0

# point cloud (X,Y,Z)
pointCloudX = []
pointCloudY = []
pointCloudZ = []

for idx in range(len(points1)):
        
    X = linearLSTriangulation(u[idx], P, u1[idx], P1)
    
    pointCloudX.append(X[0])
    pointCloudY.append(X[1])
    pointCloudZ.append(X[2])
        
    temp = np.zeros(4, np.float32)
    temp[0] = X[0]
    temp[1] = X[1]
    temp[2] = X[2]
    temp[3] = 1.0    
    print temp
       
    # calculate re-projection error 
    reprojPoint = np.dot(np.dot(K, P1), temp)
    imgPoint = np.array([points1[idx][0], points1[idx][1], 1.])
    
    reprojError += math.sqrt((reprojPoint[0] / reprojPoint[2] - imgPoint[0]) * (reprojPoint[0] / reprojPoint[2] - imgPoint[0]) + (reprojPoint[1] / reprojPoint[2] - imgPoint[1]) * (reprojPoint[1] / reprojPoint[2] - imgPoint[1]))

print 'Re-project Error:', reprojError / len(points1)

繪製空間點的在三維空間中的位置，但沒有根據黑白格邊長作長度單位的轉換。實驗結果如下圖所示。上面兩幅圖爲步驟（2）和（3）的實驗結果，所有極線的交點爲極點，都在圖像之外。圖像中匹配合格的特徵點有相同的編號。根據編號的相對位置關係判斷重建可以是否合理。

結語

單目視覺三維重建其實還是利用的雙視幾何的原理來做的，唯一有變化的地方是單目視覺在不同時間段上的兩個攝像頭的關係。立體視覺固定位置的兩個攝像頭相互平行的結構極大地簡化了攝像頭之間的變換關係，而單目視覺的兩個攝像頭由於仿射空間變換的結果取決於特徵點匹配的精度，而有時匹配合格的特徵點如果太少會直接影響到仿射結構的結果，所以變換的結果不確定性很大。總的來說，相比單目視覺，雙目視覺三維重建的結果會精確很多。

OpenCV Using Python——單目視覺三維重建

單目視覺三維重建

1. 單目視覺三維重建簡介

2. 代碼實現

（1）標定攝像機獲得攝像機矩陣K（內參數矩陣）

（2）SIFT特徵點匹配

（3）已知內參數矩陣，計算基礎矩陣F和本徵矩陣E

（4）根據本徵矩陣的旋轉和平移分量構造投影矩陣對P和P’

（5）有效特徵點三角化實現重建

結語

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

OpenCV Using Python——基於SURF特徵提取和金字塔LK光流法的單目視覺三維重建

OpenCV Using Python——單目視覺三維重建

OpenCV Using Python——調整基於HAAR特徵的AdaBoost級聯分類器的物體識別的參數

Theano入門——CIFAR-10和CIFAR-100數據集

用於視覺識別的卷積神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結