相机标定（camera calibration）

相机标定的目的和意义

我们所处的世界是三维的，而照片是二维的，这样我们可以把相机认为是一个函数，输入量是一个场景，输出量是一幅灰度图。这个从三维到二维的过程的函数是不可逆的。

相机标定的目标是我们找一个合适的数学模型，求出这个模型的参数，这样我们能够近似这个三维到二维的过程，使这个三维到二维的过程的函数找到反函数。

这个逼近的过程就是「相机标定」，我们用简单的数学模型来表达复杂的成像过程，并且求出成像的反过程。标定之后的相机，可以进行三维场景的重建，即深度的感知，这是计算机视觉的一大分支。

基本的坐标系：

世界坐标系(world coordinate system)
相机坐标系(camera coordinate system)
图像坐标系(image coordinate system)

一般来说，标定的过程分为两个部分：

第一步是从世界坐标系转换为相机坐标系，这一步是三维点到三维点的转换，包括 R ，t （相机外参）等参数。
第二部是从相机坐标系转为图像坐标系，这一步是三维点到二维点的转换，包括 K（相机内参）等参数。

相机坐标系转换到图像坐标系

坐标系介绍

C 点表示camera centre，即相机的中心点，也是相机坐标系的中心点；
Z 轴表示principal axis，即相机的主轴；
p 点所在的平面表示image plane，即相机的像平面，也就是图片坐标系所在的二维平面；
p 点表示principal point，即主点，主轴与像平面相交的点；
C 点到 p 点的距离，也就是右边图中的 f 表示focal length，即相机的焦距；
像平面上的 x 和 y 坐标轴是与相机坐标系上的 X 和 Y 坐标轴互相平行的；
相机坐标系是以 X ，Y ，Z 三个轴组成的且原点在 C 点，度量值为米(m)；
像平面坐标系是以 x，y（小写）两个轴组成的且原点在 p 点，度量值为米(m)；
图像坐标系一般指图片相对坐标系，在这里可以认为和像平面坐标系在一个平面上，不过相平面坐标系的原点是在图片的角上，而且度量值为像素的个数(pixel)；

相机转换到像平面

如果知道相机坐标系中的一个点X（现实三维世界中的点），在像平面坐标系对应的点是 x，要求求从相机坐标系转为像平面坐标系的转换，也就是从X点的( X , Y , Z )通过一定的转换变为x点的(x, y)。

注意( X , Y , Z )是在相机坐标系，而( x , y )是在像平面坐标系（还不是图像坐标系，因为原点不同。）观察第二个图，很简单的可以得到这个转换：

\[ x = \frac{fX}{Z} \]

\[ y = \frac{fY}{Z} \]

\[ (X, Y, Z)\longrightarrow (\frac{fX}{Z}, \frac{fY}{Z}) \]

可以表示为矩阵计算为（在这里用的是齐次坐标的表示方式，关于齐次坐标文章最下面有介绍）：

\[ \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \longrightarrow \begin{bmatrix} fX \\ fY \\ Z \end{bmatrix} = \begin{bmatrix} f&&&0 \\ &f&&0 \\ &&1&0 \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \]

可以简写为（P就是所谓的投影矩阵，当然现在还不完整）：

\[ x = PX \]

加入偏移量

通过上面，可以把相机坐标系转换到像平面坐标系，但是像平面坐标系和图像坐标系虽然在同一个平面上，但是原点并不是同一个，而目标是要转换到图像坐标系下，所以还需要一步操作，如下图：

如上图所示，其中主点 p 是像平面坐标系的原点，但在图像坐标系中的位置为

\[ (p_{x}, p_{y}) \]

在这里，图形坐标系的原点是图片的左下角，所以可以得到：

\[ (X, Y, Z) \longrightarrow (\frac{fX}{Z} + p_{x}, \frac{fY}{Z} + p_{y},) \]

相当于在上面的基础上加了一个p点坐标的偏移量，同时可以表示为矩阵计算为（在这里用的是齐次坐标的表示方式）：

\[ \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \longrightarrow \begin{bmatrix} fX + Zp_{x} \\ fY + Zp_{y} \\ Z \end{bmatrix} = \begin{bmatrix} f&&p_{x}&0 \\ &f&p_{y}& \\ &&1&0 \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \]

整理一下得：

\[ \begin{bmatrix} fX + Zp_{x} \\ fY + Zp_{y} \\ Z \end{bmatrix} = \begin{bmatrix} f&&p_{x} \\ &f&p_{y} \\ &&1 \end{bmatrix} \begin{bmatrix} 1&&&0 \\ &1&&0 \\ &&1&0 \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} \]

所以最后可以得到 K，也就是平时所说的相机内参（Intrinsic parameters）：

\[ \begin{bmatrix} f&&p_{x} \\ &f&p_{y} \\ &&1 \end{bmatrix} \]

以及投影矩阵P（在这里可以认为旋转矩阵R为单位矩阵I，平移矩阵t都为0，这也是为什么要拆成这种方式），为：

\[ P = K[I \ \rvert \ 0] \]

像素坐标

前面也提到了在图像坐标系中用的不是现实生活中的m来度量，而是用的 pixel 的个数，所以在上面转换到图像坐标系中还有个问题，就是坐标的表示还是m，并没有转换到像素坐标系统；在这里需要引入一个新概念就是：

\(m_{x}\)表示在水平方向1m的长度包含的像素的个数;
\(m_{y}\)表示在竖直方向1m的长度包含的像素的个数;

可能有人奇怪为啥不是一个值，还需要分别指定 \(m_{x}\),\(m_{y}\)呀，这是因为通过上面可以得到一个像素点的大小（m度量）为：

\[ \frac{1}{m_{x}} \times \frac{1}{m_{y}} \]

需要说明的是像素并不一定是一个正方形，有时候可能也是一个矩形，所以要分别指定。所以可以把上面相机内参 K 变为更新为，转换公式把 K 替换即可，其他不变：

\[ K = \begin{bmatrix} m_{x}&& \\ &m_{y}& \\ &&1 \end{bmatrix} \begin{bmatrix} f&&p_{x} \\ &f&p_{y} \\ &&1 \end{bmatrix} = \begin{bmatrix} \alpha _{x} &&\beta _{x} \\ &\alpha _{y}&\beta _{y} \\ &&1 \end{bmatrix} \]

世界坐标系转换到图像坐标系

坐标系介绍

如上图所示，从世界坐标系转换到相机坐标系是三维空间到三维空间的变换，一般来说需要一个平移操作和一个旋转操作就可以完成这个转换，用公式表示如下（可以理解为世界坐标系原点先平移到相机坐标系的位置然后在做一次坐标系旋转，使坐标轴对齐。）

\[ \tilde{X}_{cam} = R(\tilde{X} \ - \ \tilde{C}) \]

R 表示旋转矩阵;
\(\tilde{X}\)表示 X 点在世界坐标系中的位置;
\(\tilde{C}\)表示相机原点 C 在世界坐标系中的位置;
\(\tilde{X}_{cam}\)表示 X 点在相机坐标系中的位置;

世界转换到相机

根据上面的公式可以得到从一个三维点从世界坐标系转换到相机坐标的变换公式如下（也是用的齐次坐标的表示方式）：

\[ X_{cam} = \begin{bmatrix} \tilde{X}_{cam} \\ 1 \end{bmatrix} = \begin{bmatrix} R&-R\tilde{C} \\ 0&1 \end{bmatrix} \begin{bmatrix} \tilde{X} \\ 1 \end{bmatrix} = \begin{bmatrix} R&-R\tilde{C} \\ 0&1 \end{bmatrix}X \]

世界转换到图像

根据上面的讨论知道了怎样从世界坐标系转换到相机坐标系（平移和旋转）以及从相机坐标系转换到图像坐标系（相机内参变换），所以带入上面的矩阵计算，可以得到：

\[ x = K[I \ | \ 0]X_{cam} = K[R \ | \ -R\tilde{C}] X \]

这样就得到了最终的投影矩阵 P:

\[ P = K[R \ | \ t] \]

其中：

\[ t = -R\tilde{C} \]

在这里，K 一般称为相机内参（intrinsic parameters），描述了相机的内部参数，包括焦距 f 、主点 p 的位置、以及像素与真实环境的大小比例等，这个是固有属性，是提供好的；R 和 t 称为相机外参（extrinsic parameters），R 在这里是旋转矩阵，可以转换为三维的旋转向量，分别表示绕x ，y ，z 三个轴的旋转角度，t 目前就是一个平移向量，分别表示在x ，y ，z 三个方向上的平移量。

畸变参数(distortion parameters)

在几何光学和阴极射线管(CRT)显示中，畸变（distortion）是对直线投影（rectilinear projection）的一种偏移。简单来说直线投影是场景内的一条直线投影到图片上也保持为一条直线。那畸变简单来说就是一条直线投影到图片上不能保持为一条直线了，这是一种光学畸变（optical aberration）。可能由于摄像机镜头的原因，这里不讨论，有兴趣的可以查阅光学畸变的相关的资料。畸变一般可以分为两大类，包括径向畸变和切向畸变。主要的一般径向畸变有时也会有轻微的切向畸变。

径向畸变（Radial distortion）

径向畸变的效应有三种，一种是桶形畸变（barrel distortion），另一种是枕形畸变（pincushion distortion），还有一种是两种的结合叫做胡子畸变（mustache distortion），从图片中可以很容易看出区别，具体见下图:

径向畸变可以用如下公式修正：

\[ x_{corr} = x_{dis}(1+k_{1}r^{2}+k_{2}r^{4}+k_{3}r^{6}) \] \[ y_{corr} = y_{dis}(1+k_{1}r^{2}+k_{2}r^{4}+k_{3}r^{6}) \]

切向畸变（tangential distortion）

切向畸变是由于透镜与成像平面不严格的平行，其可以用如下公式修正：

\[ x_{corr} = x_{dis}+[2p_{1}xy+p_{2}(r^{2}+2x^{2})] \] \[ y_{corr} = y_{dis}+[2p_{2}xy+p_{1}(r^{2}+2y^{2})] \]

其中：

\(x_{dis}\)和\(y_{dis}\)表示有畸变的坐标;
\(x_{corr}\)和\(y_{corr}\)表示修复后的坐标;
\(k_{1},k_{2},k_{3}\)表示径向畸变参数;
\(p_{1},p_{2}\)表示切向畸变参数;

所以最终得到5个畸变参数：

\[ D=(k_{1},k_{2},p_{1},p_{2},k_{3}) \]

齐次坐标

就是将一个原本是n维的向量用一个n+1维向量来表示。许多图形应用涉及到几何变换，主要包括平移、旋转、缩放。以矩阵表达式来计算这些变换时，平移是矩阵相加，旋转和缩放则是矩阵相乘，综合起来可以表示为 x = R ∗ X + t （注：因为习惯的原因，实际使用时一般使用变化矩阵左乘向量）(R 旋转缩放矩阵，t 为平移矩阵，X 为原向量，x 为变换后的向量)。引入齐次坐标的目的主要是合并矩阵运算中的乘法和加法，表示为 x = P ∗ X 的形式。即它提供了用矩阵运算把二维、三维甚至高维空间中的一个点集从一个坐标系变换到另一个坐标系的有效方法。和上面的计算过程是对应的。