PSENet

Shape Robust Text Detection with Progressive Scale Expansion Network

Shape Robust Text Detection with Progressive Scale Expansion Network

论文地址：https://arxiv.org/abs/1806.02559
代码地址：https://github.com/whai362/PSENet

文章主要针对的问题

场景文字检测面临两个问题：

大部分的state-of-art 的算法都是预测四边形的检测框来表示文本框，但是这种方式在任意形状的文本行检测问题上的效果较差。
距离较近的文本行容易检测错误，检测结果容易相互有重叠或者多个文本行因为没有分开而被检测为一个。

基于CNN的场景文字检测算法主要可以分为两类：

regression-based approaches（基于回归的方法）
基于回归的方法使用CNN回归问本行的边界框，这种方法一般应用在文本行可以用具有一定方向的矩形或四边形的形式表示的情况下，比如水平文本行。在任意方向的场景文字检测问题上，因为文本行形状多变，四边形并不能有效地表示一串文本行，所依据与回归的方法在locate the texts with arbitrary shape 问题上效果不佳。
segmentation-based approaches（基于分割的方法）
基于分割的方法把文本行检测看做像素点分类问题，即通过设计CNN网络分割出文本和非文本像素点，但是没直接的分割方法很难分开相近的文本行，于是在输出检测结果的时候会把多个粘连的文本行预测为一个。

PSENet网络结构

PSENet主要框架如图：

整体架构： 特征提取阶段采用的骨干网络为ResNet，并将低层和高层的特征进行相连（FPN网络结构），将FPN的最后四层特征 $P_2,P_3,P_4,P_5$ 融合为一个特征层 $F$ ，然后将 $F$ 再次映射到 $n$ 个分割结果： $S_1,S_2,...,S_n$ 。每一个 $S_i$ 都表示在某一个尺度上的文本行像素分割结果。 $S_1$ 表示一个文本行（字符串）的最小尺度的分割图（原始的文本行mask图向里收缩一定比例后的mask）， $S_n$ 表示文本行（字符串）原始的分割图。得到这些分割图后，采用 $PSE$ (Progressive Scale Expansion Algorithm) 从 $S_1$ 到 $S_n$ 逐步融合CNN生成的分割图像，从而得到最终的检测结果：
$R = PSE \{S_1,S_2,...,S_n\}$

具体细节： 四个特征层 $P_2,P_3,P_4,P_5$ 都为256层（channels）特征层，长宽尺寸逐渐（1/2倍）缩小。 $F$ 是这些特征层的拼接，所以是1024层（channels）。因为大小不同，所以拼接时将每一特征层都放大到 $P_2$ 大小，具体为：
$F=C(P_2,P_3,P_4,P_5)=P_2||Up_{\times2}(P_3)||Up_{\times4}(P_4)||Up_{\times8}(P_5)$
然后采用 $3\times 3$ 的卷积层（包含BN层，激活函数采用ReLU）将 $F$ 压缩至256维，再通过多个 $1\times 1$ 的卷积（激活函数采用Sigmoid）预测 n个分割结果 $\{S_1,S_2,...,S_n\}$

Progressive Scale Expansion Algorithm

渐进式尺度展开算法：

在 $S_1$ 上求取分割连通域 $C = \{c_1,c_2,c_3,c_4,...\}$
对任意一个连通域中的任意一个文本像素点 $p$ ，若近邻的像素点 $q$ 在 $S_2$ 中被预测为文本像素点(positive)且还未被包含在任意一个连通域内，则将改点添加到 $p$ 对应的连通域。不断迭代，直至所有的连通域中的所有的像素点在 $S_2$ 中的邻近像素点都没有被预测为文本像素点的点。
根据上述步骤，不断向所有的分割图 $\{S_3,S_4,...,S_n\}$ 展开

训练标签生成

PSENet将不同尺度的分割结果进行融合为最终的文本行检测结果，因此在训练时也需要有不同阶段的分割结果的监督信息。在生成分割标签时，采用将原始的多边形标注结果不断向里收缩的的方式生成不同阶段的分割图。

如图所示：将原始的多边形 $p_n$ 向里收缩 $d_i$ 个像素得到多边形 $p_i$
更具体的实现细节：

$d_i =\frac{Area(p_n)\times (1-r_i^2)}{Permeter(p_n)}$ 其中 $Area(p_n),Permeter(p_n)$ 分别表示面积和周长。
$r_i =1-\frac{(1-m)\times (n-i)}{n-1}$ 其中 $m\in(0,1]$ 表示最小的尺度， $n$ 是需要生成的分割图的个数。这样可以求出 $\{r_1,r_2,...,r_n\}$ 个不同比例，其中 $r_1=m,r_n=1$ 。根据不同的比例就可以求出多个分割尺度下的分割图。最后生成文字检测分割图标签 $\{G_1,G_2,...G_n\}$

网络损失函数

网络的整体损失函数可以表示为：
$L = \lambda L_c+(1-\lambda)L_s$
$L_c$ 表示没有收缩的分割图像 $G_n$ 对应的损失complete text instances， $L_s$ 表示其余的收缩的label对应的损失 $\{G_1,G_2,...G_{n-1}\}$
因为文字区域一般占图像中的很小一部分，如果直接做像素级的分类，网络趋向于将预测为非文字类别，所以文中引用一种类别均衡方式dice coefficient来解决这一问题。

从公式中可以看出，当 $S_i$ 和 $G_i$ 完全相同时 $D(S_i,G_i)=1$ ，完全不同时 $D(S_i,G_i)=0$ 。
对于 $L_c$ 引入了难样本挖掘（OHEM）提升分割性能，假设由OHEM求到的训练mask为 $M$ ，所以：
$L_c = 1-D(S_n*M,G_n*M)$
在 $L_s$ 的计算过程中则忽略 $S_n$ 中分割结果为非文本像素点：

为什么采用渐进尺度展开

从图中可以看出，如果只采用两级分割图（一个较小的收缩的预测图和一个完整的分割图），那么两个相邻但大小不同的文本行的检测结果将有一定的误差。而增加渐进的级数可以使检测结果更加精确。

Shape Robust Text Detection with Progressive Scale Expansion Network

PSENet

Shape Robust Text Detection with Progressive Scale Expansion Network

文章主要针对的问题

PSENet网络结构

Progressive Scale Expansion Algorithm

训练标签生成

网络损失函数

为什么采用渐进尺度展开

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

文檔圖像傾斜校正算法(1)——文本行投影法

文檔圖像傾斜校正算法(3)——二位傅里葉變化法傾斜校正

文檔圖像傾斜校正算法(2)——直線檢測傾斜校正

opencv4.0.1安裝（Linux非root用戶安裝）

windows vs2019 編譯 curllib

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結