VINS-Mono代碼解讀——視覺慣性聯合初始化 initialStructure sfm

前言

本文主要介紹VINS狀態估計器模塊(estimator)中的初始化過程(initial),對應論文第五章(V. ESTIMATOR INITIALIZATION),主要在代碼中/vins_estimator節點的相關部分實現。

由於單目緊耦合的VIO是一個高度非線性系統,單目視覺沒有尺度信息,IMU的測量又存在偏置誤差,如果沒有良好的初始值很難將這兩種測量結果有機融合,因而初始化是VIO最脆弱的步驟。

VINS採用了視覺和IMU的鬆耦合初始化方案,首先用從運動恢復結構(SFM)得到純視覺系統的初始化,即滑動窗口中所有幀的位姿和所有路標點的3d位置,然後將其與IMU預積分結果進行對齊,恢復尺度因子、重力、陀螺儀偏置和每一幀的速度。

考慮初始化的原理和代碼實現結合的比較緊密,決定將論文內容放到具體函數出現時再進行解釋。

另外我認爲要看懂這部分代碼,很重要的一點是你要知道每個變量的具體含義,尤其是矩陣R(或四元數Q)和向量T,它代表的是哪一幀相對於什麼座標系的位姿,或是什麼座標系轉換到什麼座標系下的變換矩陣。代碼中有大量求對稱的變換矩陣以及openCV函數求解RT,需要明白其到底在做什麼。


在這裏插入圖片描述


更正:

  Mat cv::findFundamentalMat(  
      nputArray  points1,             //第一幅圖像點的數組
      InputArray  points2,            //第二幅圖像點的數組
      int     method = FM_RANSAC,     //RANSAC 算法
      double  param1 = 3.,            //點到對極線的最大距離,超過這個值的點將被捨棄
      double  param2 = 0.99,          //矩陣正確的可信度
      OutputArray mask = noArray()    //輸出在計算過程中沒有被捨棄的點
      )

函數findFundamentalMat()既可以用來求基本矩陣F,也可以求本質矩陣E。求什麼取決於你的參數points1和points2是像素座標還是歸一化平面座標。因爲對極約束的式子是:
x2TEx1=p2TFp1=0x^T_2Ex_1=p^T_2Fp_1=0其中本質矩陣E=[t]×RE=[t]_\times R,基本矩陣F=KTEK1F=K^{-T}EK^{-1}
而在VINS初始化階段都是用於求本質矩陣然後恢復Rt,之前看錯了。


代碼實現

代碼主要包含在estimator.cpp以及initial文件夾中,有關在初始化前的一些流程可以參考我的上一篇博客VINS-Mono代碼解讀——狀態估計器流程
這裏直接從estimator.cpp中的 if (solver_flag == INITIAL) 開始解釋。


初始化入口

frame_count表示目前滑動窗口中圖像幀的數量,一開始初始化爲0,WINDOW_SIZE=10表示滑動窗口中存儲第0幀~第10幀的信息,這裏目的是爲了確保有足夠的frame參與初始化。

        if (frame_count == WINDOW_SIZE)
        {
            bool result = false;
            //有外參且當前幀時間戳大於初始化時間戳0.1秒,就進行初始化操作
            if( ESTIMATE_EXTRINSIC != 2 && (header.stamp.toSec() - initial_timestamp) > 0.1)
            {
               //視覺慣性聯合初始化
               result = initialStructure();
               //更新初始化時間戳
               initial_timestamp = header.stamp.toSec();
            }
            if(result)//初始化成功
            {
                //先進行一次滑動窗口非線性優化,得到當前幀與第一幀的位姿
                solver_flag = NON_LINEAR;
                solveOdometry();
                slideWindow();
                f_manager.removeFailures();
                ROS_INFO("Initialization finish!");
                last_R = Rs[WINDOW_SIZE];
                last_P = Ps[WINDOW_SIZE];
                last_R0 = Rs[0];
                last_P0 = Ps[0];        
            }
            else
                slideWindow();//初始化失敗則直接滑動窗口
        }
        else
            frame_count++;//圖像幀數量+1

initialStructure() 視覺慣性聯合初始化

1、通過計算線加速度的標準差,判斷IMU是否有充分運動激勵,以進行初始化
注意這裏並沒有算上all_image_frame的第一幀,所以求均值和標準差的時候要減一

        map<double, ImageFrame>::iterator frame_it;
        Vector3d sum_g;
        for (frame_it = all_image_frame.begin(), frame_it++; frame_it != all_image_frame.end(); frame_it++){
            double dt = frame_it->second.pre_integration->sum_dt;
            Vector3d tmp_g = frame_it->second.pre_integration->delta_v / dt;
            sum_g += tmp_g;
        }
        Vector3d aver_g;
        aver_g = sum_g * 1.0 / ((int)all_image_frame.size() - 1);//均值
        double var = 0;
        for (frame_it = all_image_frame.begin(), frame_it++; frame_it != all_image_frame.end(); frame_it++)
        {
            double dt = frame_it->second.pre_integration->sum_dt;
            Vector3d tmp_g = frame_it->second.pre_integration->delta_v / dt;
            var += (tmp_g - aver_g).transpose() * (tmp_g - aver_g);
        }
        var = sqrt(var / ((int)all_image_frame.size() - 1));//標準差
        if(var < 0.25)
            ROS_INFO("IMU excitation not enouth!");

2、將f_manager中的所有feature保存到vector<SFMFeature> sfm_f中,代碼略
這裏解釋一下SFMFeature,其存放的是特徵點的信息

struct SFMFeature
{
    bool state;//狀態(是否被三角化)
    int id;
    vector<pair<int,Vector2d>> observation;//所有觀測到該特徵點的圖像幀ID和圖像座標
    double position[3];//3d座標
    double depth;//深度
};

3、保證具有足夠的視差,由E矩陣恢復R、t
這裏的第L幀是從第一幀開始到滑動窗口中第一個滿足與當前幀的平均視差足夠大的幀,會作爲參考幀到下面的全局sfm使用,得到的Rt爲當前幀到第l幀的座標系變換Rt

    if (!relativePose(relative_R, relative_T, l))
    {
        ROS_INFO("Not enough features or parallax; Move device around");
        return false;
    }

4、對窗口中每個圖像幀求解sfm問題,得到所有圖像幀相對於參考幀的旋轉四元數Q、平移向量T和特徵點座標sfm_tracked_points。

    GlobalSFM sfm;
    if(!sfm.construct(frame_count + 1, Q, T, l,
              relative_R, relative_T,
              sfm_f, sfm_tracked_points))
    {
        //求解失敗則邊緣化最早一幀並滑動窗口
        ROS_DEBUG("global SFM failed!");
        marginalization_flag = MARGIN_OLD;
        return false;
    }

5、對於所有的圖像幀,包括不在滑動窗口中的,提供初始的RT估計,然後solvePnP進行優化

    map<double, ImageFrame>::iterator frame_it;
    map<int, Vector3d>::iterator it;
    frame_it = all_image_frame.begin( );
    for (int i = 0; frame_it != all_image_frame.end( ); frame_it++)
    {
        cv::Mat r, rvec, t, D, tmp_r;
        if((frame_it->first) == Headers[i].stamp.toSec())
        {
            frame_it->second.is_key_frame = true;
            frame_it->second.R = Q[i].toRotationMatrix() * RIC[0].transpose();
            frame_it->second.T = T[i];
            i++;
            continue;
        }
        if((frame_it->first) > Headers[i].stamp.toSec())
            i++;
 
        //注意這裏的 Q和 T是圖像幀的位姿,而不是求解PNP時所用的座標系變換矩陣,兩者具有對稱關係
        Matrix3d R_inital = (Q[i].inverse()).toRotationMatrix();
        Vector3d P_inital = - R_inital * T[i];
        cv::eigen2cv(R_inital, tmp_r);
        //羅德里格斯公式將旋轉矩陣轉換成旋轉向量
        cv::Rodrigues(tmp_r, rvec);
        cv::eigen2cv(P_inital, t);

        frame_it->second.is_key_frame = false;
        //獲取 pnp需要用到的存儲每個特徵點三維點和圖像座標的 vector
        vector<cv::Point3f> pts_3_vector;
        vector<cv::Point2f> pts_2_vector;
        for (auto &id_pts : frame_it->second.points)
        {
            int feature_id = id_pts.first;
            for (auto &i_p : id_pts.second)
            {
                it = sfm_tracked_points.find(feature_id);
                if(it != sfm_tracked_points.end())
                {
                    Vector3d world_pts = it->second;
                    cv::Point3f pts_3(world_pts(0), world_pts(1), world_pts(2));
                    pts_3_vector.push_back(pts_3);
                    Vector2d img_pts = i_p.second.head<2>();
                    cv::Point2f pts_2(img_pts(0), img_pts(1));
                    pts_2_vector.push_back(pts_2);
                }
            }
        }
        //保證特徵點數大於 5
        cv::Mat K = (cv::Mat_<double>(3, 3) << 1, 0, 0, 0, 1, 0, 0, 0, 1);     
        if(pts_3_vector.size() < 6)
        {
            cout << "pts_3_vector size " << pts_3_vector.size() << endl;
            ROS_DEBUG("Not enough points for solve pnp !");
            return false;
        }
        /** 
         *bool cv::solvePnP(    求解 pnp問題
         *   InputArray  objectPoints,   特徵點的3D座標數組
         *   InputArray  imagePoints,    特徵點對應的圖像座標
         *   InputArray  cameraMatrix,   相機內參矩陣
         *   InputArray  distCoeffs,     失真係數的輸入向量
         *   OutputArray     rvec,       旋轉向量
         *   OutputArray     tvec,       平移向量
         *   bool    useExtrinsicGuess = false, 爲真則使用提供的初始估計值
         *   int     flags = SOLVEPNP_ITERATIVE 採用LM優化
         *)   
         */
        if (! cv::solvePnP(pts_3_vector, pts_2_vector, K, D, rvec, t, 1))
        {
            ROS_DEBUG("solve pnp fail!");
            return false;
        }
        cv::Rodrigues(rvec, r);
        MatrixXd R_pnp,tmp_R_pnp;
        cv::cv2eigen(r, tmp_R_pnp);
        //這裏也同樣需要將座標變換矩陣轉變成圖像幀位姿,並轉換爲IMU座標系的位姿
        R_pnp = tmp_R_pnp.transpose();
        MatrixXd T_pnp;
        cv::cv2eigen(t, T_pnp);
        T_pnp = R_pnp * (-T_pnp);
        frame_it->second.R = R_pnp * RIC[0].transpose();
        frame_it->second.T = T_pnp;
    }

6、進行視覺慣性聯合初始化

    if (visualInitialAlign())
        return true;
    else
    {
        ROS_INFO("misalign visual structure with IMU");
        return false;
    }

bool relativePose(relative_R, relative_T, l)

該函數判斷每幀到窗口最後一幀對應特徵點的平均視差大於30,且內點數目大於12則可進行初始化,同時返回當前幀到第l幀的座標系變換R和T

bool Estimator::relativePose(Matrix3d &relative_R, Vector3d &relative_T, int &l)
{
    for (int i = 0; i < WINDOW_SIZE; i++)
    {
        //尋找第i幀到窗口最後一幀的對應特徵點
        vector<pair<Vector3d, Vector3d>> corres;
        corres = f_manager.getCorresponding(i, WINDOW_SIZE);
        if (corres.size() > 20){
            //計算平均視差
            double sum_parallax = 0;
            double average_parallax;
            for (int j = 0; j < int(corres.size()); j++){
                //第j個對應點在第i幀和最後一幀的(x,y)
                Vector2d pts_0(corres[j].first(0), corres[j].first(1));
                Vector2d pts_1(corres[j].second(0), corres[j].second(1));
                double parallax = (pts_0 - pts_1).norm();
                sum_parallax = sum_parallax + parallax;
            }
            average_parallax = 1.0 * sum_parallax / int(corres.size());
            //判斷是否滿足初始化條件:視差>30和內點數滿足要求(大於12)
            //solveRelativeRT()通過基礎矩陣計算當前幀與第l幀之間的R和T,並判斷內點數目是否足夠
            //同時返回窗口最後一幀(當前幀)到第l幀(參考幀)的relative_R,relative_T
            if(average_parallax * 460 > 30 && m_estimator.solveRelativeRT(corres, relative_R, relative_T)){
                l = i;
                ROS_DEBUG("average_parallax %f choose l %d and newest frame to triangulate the whole structure", average_parallax * 460, l);
                return true;
            }
        }
    }
    return false;
}

在m_estimator.solveRelativeRT(corres, relative_R, relative_T)中主要用到了兩個opencv函數,這裏稍微解釋一下:

/**
 *  Mat cv::findFundamentalMat(  返回通過RANSAC算法求解兩幅圖像之間的本質矩陣E
 *      nputArray  points1,             第一幅圖像點的數組
 *      InputArray  points2,            第二幅圖像點的數組
 *      int     method = FM_RANSAC,     RANSAC 算法
 *      double  param1 = 3.,            點到對極線的最大距離,超過這個值的點將被捨棄
 *      double  param2 = 0.99,          矩陣正確的可信度
 *      OutputArray mask = noArray()    輸出在計算過程中沒有被捨棄的點
 *  ) 
 */   
cv::Mat E = cv::findFundamentalMat(ll, rr, cv::FM_RANSAC, 0.3 / 460, 0.99, mask);
/**
 *  int cv::recoverPose (   通過本質矩陣得到Rt,返回通過手性校驗的內點個數
 *      InputArray  E,              本質矩陣
 *      InputArray  points1,        第一幅圖像點的數組
 *      InputArray  points2,        第二幅圖像點的數組
 *      InputArray  cameraMatrix,   相機內參
 *      OutputArray     R,          第一幀座標系到第二幀座標系的旋轉矩陣
 *      OutputArray     t,          第一幀座標系到第二幀座標系的平移向量
 *      InputOutputArray    mask = noArray()  在findFundamentalMat()中沒有被捨棄的點
 *  )  
 */
int inlier_cnt = cv::recoverPose(E, ll, rr, cameraMatrix, rot, trans, mask);

bool sfm.construct()

純視覺sfm,求解窗口中所有圖像幀的位姿QT(相對於第l幀)和特徵點座標sfm_tracked_points

bool GlobalSFM::construct(int frame_num, Quaterniond* q, Vector3d* T, int l,
			  const Matrix3d relative_R, const Vector3d relative_T,
			  vector<SFMFeature> &sfm_f, map<int, Vector3d> &sfm_tracked_points)

frame_num=frame_count + 1=11,frame_num-1表示當前幀
1、這裏把第l幀看作參考座標系,根據當前幀到第l幀的relative_R,relative_T,得到當前幀在參考座標系下的位姿,之後的pose[i]表示第l幀到第i幀的變換矩陣[R|T]

	q[l].w() = 1;
	q[l].x() = 0;
	q[l].y() = 0;
	q[l].z() = 0;
	T[l].setZero();
	q[frame_num - 1] = q[l] * Quaterniond(relative_R);
	T[frame_num - 1] = relative_T;

2、先三角化第l幀(參考幀)與第frame_num-1幀(當前幀)的路標點
3、pnp求解參考座標系到第l+1開始的每一幀的變換矩陣R_initial, P_initial,保存在Pose中。
並與當前幀進行三角化。

	for (int i = l; i < frame_num - 1 ; i++)
	{
		if (i > l)
		{
			Matrix3d R_initial = c_Rotation[i - 1];
			Vector3d P_initial = c_Translation[i - 1];
			if(!solveFrameByPnP(R_initial, P_initial, i, sfm_f))
				return false;
			c_Rotation[i] = R_initial;
			c_Translation[i] = P_initial;
			c_Quat[i] = c_Rotation[i];
			Pose[i].block<3, 3>(0, 0) = c_Rotation[i];
			Pose[i].block<3, 1>(0, 3) = c_Translation[i];
		}
		triangulateTwoFrames(i, Pose[i], frame_num - 1, Pose[frame_num - 1], sfm_f);
	}

4、對第l幀與從第l+1到frame_num-2的每一幀再進行三角化

	for (int i = l + 1; i < frame_num - 1; i++)
		triangulateTwoFrames(l, Pose[l], i, Pose[i], sfm_f);

5、PNP求解參考座標系到從第l-1到第0幀的每一幀之間的變換矩陣,並進行三角化

	for (int i = l - 1; i >= 0; i--)
	{
		Matrix3d R_initial = c_Rotation[i + 1];
		Vector3d P_initial = c_Translation[i + 1];
		if(!solveFrameByPnP(R_initial, P_initial, i, sfm_f))
			return false;
		c_Rotation[i] = R_initial;
		c_Translation[i] = P_initial;
		c_Quat[i] = c_Rotation[i];
		Pose[i].block<3, 3>(0, 0) = c_Rotation[i];
		Pose[i].block<3, 1>(0, 3) = c_Translation[i];
		triangulateTwoFrames(i, Pose[i], l, Pose[l], sfm_f);
	}

6、三角化其他未恢復的特徵點。至此得到了滑動窗口中所有圖像幀的位姿以及特徵點的3d座標

	for (int j = 0; j < feature_num; j++)
	{
		if (sfm_f[j].state == true)
			continue;
		if ((int)sfm_f[j].observation.size() >= 2)
		{
			Vector2d point0, point1;
			int frame_0 = sfm_f[j].observation[0].first;
			point0 = sfm_f[j].observation[0].second;
			int frame_1 = sfm_f[j].observation.back().first;
			point1 = sfm_f[j].observation.back().second;
			Vector3d point_3d;
			triangulatePoint(Pose[frame_0], Pose[frame_1], point0, point1, point_3d);
			sfm_f[j].state = true;
			sfm_f[j].position[0] = point_3d(0);
			sfm_f[j].position[1] = point_3d(1);
			sfm_f[j].position[2] = point_3d(2);
		}		
	}

7、使用cares進行全局BA優化,代碼略

8、這裏得到的是第l幀座標系到各幀的變換矩陣,應將其轉變爲每一幀在第l幀座標系上的位姿

	for (int i = 0; i < frame_num; i++)
	{
		q[i].w() = c_rotation[i][0]; 
		q[i].x() = c_rotation[i][1]; 
		q[i].y() = c_rotation[i][2]; 
		q[i].z() = c_rotation[i][3]; 
		q[i] = q[i].inverse();
	}
	for (int i = 0; i < frame_num; i++)
	{
		T[i] = -1 * (q[i] * Vector3d(c_translation[i][0], c_translation[i][1], c_translation[i][2]));
	}
	for (int i = 0; i < (int)sfm_f.size(); i++)
	{
		if(sfm_f[i].state)
			sfm_tracked_points[sfm_f[i].id] = Vector3d(sfm_f[i].position[0], sfm_f[i].position[1], sfm_f[i].position[2]);
	}

bool Estimator::visualInitialAlign() 視覺慣性聯合初始化

該函數主要實現了陀螺儀的偏置校準(加速度偏置沒有處理),計算速度V[0:n]、重力g、尺度s。
同時更新了Bgs後,IMU測量量需要repropagate;得到尺度s和重力g的方向後,需更新所有圖像幀在世界座標系下的Ps、Rs、Vs。

1、計算陀螺儀偏置,尺度,重力加速度和速度

    bool result = VisualIMUAlignment(all_image_frame, Bgs, g, x);
    if(!result)
    {
        ROS_DEBUG("solve g failed!");
        return false;
    }

2、獲取所有圖像幀的位姿Ps、Rs,並將其置爲關鍵幀

    for (int i = 0; i <= frame_count; i++)
    {
        Matrix3d Ri = all_image_frame[Headers[i].stamp.toSec()].R;
        Vector3d Pi = all_image_frame[Headers[i].stamp.toSec()].T;
        Ps[i] = Pi;
        Rs[i] = Ri;
        all_image_frame[Headers[i].stamp.toSec()].is_key_frame = true;
    }

3、重新計算所有特徵點的深度

    //將所有特徵點的深度置爲-1
    VectorXd dep = f_manager.getDepthVector();
    for (int i = 0; i < dep.size(); i++)
        dep[i] = -1;
    f_manager.clearDepth(dep);
    //重新計算特徵點的深度
    Vector3d TIC_TMP[NUM_OF_CAM];
    for(int i = 0; i < NUM_OF_CAM; i++)
        TIC_TMP[i].setZero();
    ric[0] = RIC[0];
    f_manager.setRic(ric);
    f_manager.triangulate(Ps, &(TIC_TMP[0]), &(RIC[0]));

4、陀螺儀的偏置bgs改變,重新計算預積分

  	for (int i = 0; i <= WINDOW_SIZE; i++)
    {
        pre_integrations[i]->repropagate(Vector3d::Zero(), Bgs[i]);
    }

5、將Ps、Vs、depth尺度s縮放後轉變爲相對於第0幀圖像座標系下
論文提到的以第一幀c0爲基準座標系,通過相機座標系ck位姿得到IMU座標系bk位姿的公式爲:
在這裏插入圖片描述
之前都是以第l幀爲基準座標系,轉換到以第一幀b0爲基準座標系的話應該是:

spbkb0=spbkclspb0cl=(spckclRbkclpcb)(spc0clRb0clpcb)sp^{b_0}_{b_k}=sp^{c_l}_{b_k}-sp^{c_l}_{b_0} =(sp^{c_l}_{c_k}-R^{c_l}_{b_k}p^b_c)-(sp^{c_l}_{c_0}-R^{c_l}_{b_0}p^b_c)

    for (int i = frame_count; i >= 0; i--)
        Ps[i] = s * Ps[i] - Rs[i] * TIC[0] - (s * Ps[0] - Rs[0] * TIC[0]);    
    int kv = -1;
    map<double, ImageFrame>::iterator frame_i;
    for (frame_i = all_image_frame.begin(); frame_i != all_image_frame.end(); frame_i++)
    {
        if(frame_i->second.is_key_frame)
        {
            kv++;
            Vs[kv] = frame_i->second.R * x.segment<3>(kv * 3);
        }
    }
    for (auto &it_per_id : f_manager.feature)
    {
        it_per_id.used_num = it_per_id.feature_per_frame.size();
        if (!(it_per_id.used_num >= 2 && it_per_id.start_frame < WINDOW_SIZE - 2))
            continue;
        it_per_id.estimated_depth *= s;
    }

6、通過將重力旋轉到z軸上,得到世界座標系與攝像機座標系c0之間的旋轉矩陣rot_diff

    Matrix3d R0 = Utility::g2R(g);
    double yaw = Utility::R2ypr(R0 * Rs[0]).x();
    R0 = Utility::ypr2R(Eigen::Vector3d{-yaw, 0, 0}) * R0;
    g = R0 * g;
    Matrix3d rot_diff = R0;

7、所有變量從參考座標系c0旋轉到世界座標系w

    for (int i = 0; i <= frame_count; i++)
    {
        Ps[i] = rot_diff * Ps[i];
        Rs[i] = rot_diff * Rs[i];
        Vs[i] = rot_diff * Vs[i];
    }

至此VINS初始化的代碼流程已經結束了,但是最關鍵的:
VisualIMUAlignment(all_image_frame, Bgs, g, x) 如何求解陀螺儀偏置、速度、重力和尺度還沒有講,而這纔是VIO初始化的關鍵。這部分將留到下一個博客仔細討論。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章