【短道速滑八】圓形半徑的圖像最大值和最小值算法的實現及其實時優化（非二值圖）

在圖像處理中，我們可以看到很多函數都是帶有半徑這個參數的，不過99%的情況下這個半徑其實都是矩形的意思，在目前我所實現的算法中，也只有二值圖像的最大值和最小值我實現了圓形半徑的優化，可以參考：SSE圖像算法優化系列二十五:二值圖像的Euclidean distance map（EDM)特徵圖計算及其優化一文，這裏通過特徵圖實現了圓形半徑算法的O(1)算法。

在實際的需求中，還有很多場合下需要圓形的最值算法，我們目前知道的有幾個算法，比如在Photoshop中，選區的擴展和收縮，在圖層樣式的描邊算法中等等，都不是普通的矩形半徑。所以這個算法的優化也有着非常重要的意義。

在可以搜索到的資料中，我曾經在2個地方看到關於這個算法的優化實現，一個是ImageJ中，其UI界面下的功能如下所示：

我們嘗試了下，在小半徑下，這速度還是比較快的，\但是半徑稍大時，就相對來說有點慢了。這個相關的代碼可以在RankFilters.java中找到。

還有一個可以參考的代碼是在GIMP中，這個也是我無意中尋得的，其代碼路徑分別在：

　　gimp-master\app\operations\gimpoperationgrow.c 和 gimp-master\app\operations\gimpoperationshrink.c文件中。

在GIMP中這個函數的主要作用也是對選區進行收縮和擴展。

原始選區　　　　　　　　　　　　　　　　　　　　　　　　　　　　　GIMP的擴展50像素　　　　　　　　　　　　　　　　　PS的擴展50像素

　　由以上圖像看上去，似乎PS的擴展選區用的還是菱形半徑，而不是圓形。

我們這裏參考了GIMP的代碼，以grow爲例,其核心代碼如下：

static void
compute_border (gint16  *circ,
                guint16  xradius,
                guint16  yradius)
{
  gint32  i;
  gint32  diameter = xradius * 2 + 1;
  gdouble tmp;

  for (i = 0; i < diameter; i++)
    {
      if (i > xradius)
        tmp = (i - xradius) - 0.5;
      else if (i < xradius)
        tmp = (xradius - i) - 0.5;
      else
        tmp = 0.0;

      circ[i] = RINT (yradius /
                      (gdouble) xradius * sqrt (SQR (xradius) - SQR (tmp)));
    }
}

static inline void
rotate_pointers (gfloat  **p,
                 guint32   n)
{
  guint32  i;
  gfloat  *tmp;

  tmp = p[0];

  for (i = 0; i < n - 1; i++)
    p[i] = p[i + 1];

  p[i] = tmp;
}

static gboolean
gimp_operation_grow_process (GeglOperation       *operation,
                             GeglBuffer          *input,
                             GeglBuffer          *output,
                             const GeglRectangle *roi,
                             gint                 level)
{
  /* Any bugs in this function are probably also in thin_region.
   * Blame all bugs in this function on [email protected]
   */
  GimpOperationGrow *self          = GIMP_OPERATION_GROW (operation);
  const Babl        *input_format  = gegl_operation_get_format (operation, "input");
  const Babl        *output_format = gegl_operation_get_format (operation, "output");
  gint32             i, j, x, y;
  gfloat           **buf;  /* caches the region's pixel data */
  gfloat            *out;  /* holds the new scan line we are computing */
  gfloat           **max;  /* caches the largest values for each column */
  gint16            *circ; /* holds the y coords of the filter's mask */
  gfloat             last_max;
  gint16             last_index;
  gfloat            *buffer;

  max = g_new (gfloat *, roi->width + 2 * self->radius_x);
  buf = g_new (gfloat *, self->radius_y + 1);

  for (i = 0; i < self->radius_y + 1; i++)
    buf[i] = g_new (gfloat, roi->width);

  buffer = g_new (gfloat,
                  (roi->width + 2 * self->radius_x) * (self->radius_y + 1));

  for (i = 0; i < roi->width + 2 * self->radius_x; i++)
    {
      if (i < self->radius_x)
        max[i] = buffer;
      else if (i < roi->width + self->radius_x)
        max[i] = &buffer[(self->radius_y + 1) * (i - self->radius_x)];
      else
        max[i] = &buffer[(self->radius_y + 1) * (roi->width + self->radius_x - 1)];

      for (j = 0; j < self->radius_y + 1; j++)
        max[i][j] = 0.0;
    }

  /* offset the max pointer by self->radius_x so the range of the
   * array is [-self->radius_x] to [roi->width + self->radius_x]
   */
  max += self->radius_x;

  out =  g_new (gfloat, roi->width);

  circ = g_new (gint16, 2 * self->radius_x + 1);
  compute_border (circ, self->radius_x, self->radius_y);

  /* offset the circ pointer by self->radius_x so the range of the
   * array is [-self->radius_x] to [self->radius_x]
   */
  circ += self->radius_x;

  memset (buf[0], 0, roi->width * sizeof (gfloat));

  for (i = 0; i < self->radius_y && i < roi->height; i++) /* load top of image */
    gegl_buffer_get (input,
                     GEGL_RECTANGLE (roi->x, roi->y + i,
                                     roi->width, 1),
                     1.0, input_format, buf[i + 1],
                     GEGL_AUTO_ROWSTRIDE, GEGL_ABYSS_NONE);

  for (x = 0; x < roi->width; x++) /* set up max for top of image */
    {
      max[x][0] = 0.0;       /* buf[0][x] is always 0 */
      max[x][1] = buf[1][x]; /* MAX (buf[1][x], max[x][0]) always = buf[1][x]*/

      for (j = 2; j < self->radius_y + 1; j++)
        max[x][j] = MAX (buf[j][x], max[x][j - 1]);
    }

  for (y = 0; y < roi->height; y++)
    {
      rotate_pointers (buf, self->radius_y + 1);

      if (y < roi->height - (self->radius_y))
        gegl_buffer_get (input,
                         GEGL_RECTANGLE (roi->x,  roi->y + y + self->radius_y,
                                         roi->width, 1),
                         1.0, input_format, buf[self->radius_y],
                         GEGL_AUTO_ROWSTRIDE, GEGL_ABYSS_NONE);
      else
        memset (buf[self->radius_y], 0, roi->width * sizeof (gfloat));

      for (x = 0; x < roi->width; x++) /* update max array */
        {
          for (i = self->radius_y; i > 0; i--)
            max[x][i] = MAX (MAX (max[x][i - 1], buf[i - 1][x]), buf[i][x]);

          max[x][0] = buf[0][x];
        }

      last_max = max[0][circ[-1]];
      last_index = 1;

      for (x = 0; x < roi->width; x++) /* render scan line */
        {
          last_index--;

          if (last_index >= 0)
            {
              if (last_max >= 1.0)
                {
                  out[x] = 1.0;
                }
              else
                {
                  last_max = 0.0;

                  for (i = self->radius_x; i >= 0; i--)
                    if (last_max < max[x + i][circ[i]])
                      {
                        last_max = max[x + i][circ[i]];
                        last_index = i;
                      }

                  out[x] = last_max;
                }
            }
          else
            {
              last_index = self->radius_x;
              last_max = max[x + self->radius_x][circ[self->radius_x]];

              for (i = self->radius_x - 1; i >= -self->radius_x; i--)
                if (last_max < max[x + i][circ[i]])
                  {
                    last_max = max[x + i][circ[i]];
                    last_index = i;
                  }

              out[x] = last_max;
            }
        }

      gegl_buffer_set (output,
                       GEGL_RECTANGLE (roi->x, roi->y + y,
                                       roi->width, 1),
                       0, output_format, out,
                       GEGL_AUTO_ROWSTRIDE);
    }

  /* undo the offsets to the pointers so we can free the malloced memory */
  circ -= self->radius_x;
  max -= self->radius_x;

  g_free (circ);
  g_free (buffer);
  g_free (max);

  for (i = 0; i < self->radius_y + 1; i++)
    g_free (buf[i]);

  g_free (buf);
  g_free (out);

  return TRUE;
}

　　代碼量不多，雖然不是純C的代碼，但是也是能看懂意思。

那麼在主函數裏，buf 內存的大小是(R + 1) * Width，他實際上是動態保存了R+1行像素對應的最大值，如下所示

　　　　6 buf[0] = 0
　　　　4 buf[Width] = Max(6, 4)
　　　 7 buf[Width * 2] = Max(6, 4, 7)

如果第一列的數值爲分別爲6/4/7，則 buf[0] = 0， buf[Width] = Max(6, 4)，即半徑爲1時的列最大值， buf[Width * 2] = Max(6, 4, 7），即半徑爲2時的列最大值。

如果計算了一整行的這種不同半徑的最大值，那麼對於一個圓形半徑，我們只要計算沿着行方向上不同半徑組合的最大值即可以得到圓半徑內的最大值。

在代碼中，compute_border就是計算圓形半徑內每列或者每行的上下對稱尺寸，這樣，沿着行方向分別取不同半徑的最大值做比較即可。

但是在上面代碼裏，沒有直接這樣，而是做了一定的優化，如下圖所示：

如左圖所示，在水平方向移動計算最大值時，當移動一個像素時，可以看到右側紅色的半圓（少一個像素）的左半部分完全在左側的黃色圓形的內部，所以如果我們的黃色圓內的最大值已經在黃色圓的右側，那麼在計算紅色圓內最大值的就沒有必要遍歷整個圓了，只需要計算右側的半圓，那麼這有50%的概率會發生這種事情，可以一定程度的降低計算量。

接着還有一個重要的優化措施，就是在更新每行的新的最值列表時，不是每行的都重新計算，而是基於上一行的結果進行簡單的更新，原理如下所示：

//                
        //  5
        //  8
        //  6                6            
        //  4                8        4            
        //  7                8        7        7
        //  5                         8        7       5
        //  7                                 7        7        7
        //  10                                         10       10
        //  8                                                    10

　　上述是某一列數的更新過程，注意半徑爲2的情況。

這個就是下面的代碼所要表達的思想：

   for (x = 0; x < roi->width; x++) /* update max array */
        {
          for (i = self->radius_y; i > 0; i--)
            max[x][i] = MAX (MAX (max[x][i - 1], buf[i - 1][x]), buf[i][x]);

          max[x][0] = buf[0][x];
        }

　　可能需要坐下來好好地想一想才能明白是咋回事的。

上面的GIMP代碼寫的很晦澀的，可以自己做點優化和美化吧。我測試了下，對於一副1000*1000的灰度圖，半徑爲1時，耗時在2ms，半徑爲10時，耗時120ms，半徑20時，耗時180ms,半徑100時，耗時590ms。

當半徑比較大時，速度還是有點慢的。

我們嘗試用SIMD指令進行優化，這個有兩點可以說的。一個是更新每行的新的最值列表時，這個代碼很明顯可以直接用簡單的simd並行優化，那麼接着就是根據列最值獲得園內的最大值，這個時候就不要用上述半圓內優化的算法了，直接用simd優化最原始的算法即可。要知道_mm_max_epu8可以一次性處理16個字節的比較呢。

經過測試，同樣的大小圖，SIMD指令優化後，半徑爲1時，耗時在2ms，半徑爲10時，耗時8ms，半徑20時，耗時10ms，半徑100時，耗時28ms，半徑越大時提速比幾乎達到了20倍。

其實仔細思考啊，這個算法只要稍微改造下compute_border 函數還可以實現橢圓、菱形，平行四邊形等對稱形狀的最值的。

Demo下載地址：https://files.cnblogs.com/files/Imageshop/SSE_Optimization_Demo.rar

【短道速滑八】圓形半徑的圖像最大值和最小值算法的實現及其實時優化（非二值圖）

【工程應用九】再談基於離散夾角餘弦相似度指標的形狀匹配優化（十六角度量化+指令集加速+目標只有部分在圖像內的識別+最小外接矩形識別重疊等）

【快速閱讀五】VS2019自帶的增強型指令集和自我優化的版本速度比較.

【快速閱讀四】基於邊緣信息的模版匹配中貪婪度參數的簡單解析。

【快速閱讀三】使用泊松融合實現單幅圖的無縫拼貼及消除兩幅圖片直接的拼接縫隙。

【快速閱讀二】從OpenCv的代碼中扣取泊松融合算子（Poisson Image Editing）並稍作優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結