原创 Attention Mechanism 序列學習任務中的注意力機制

Attention機制:序列學習任務(translation, QA, image captioning, OCR 等)上提升巨大; 分類: 空間注意力 Spatial Attention 時間注意力 Temporal Attentio

原创 OCR-文本圖像合成工具

1. Text Recognition Data Generator Github地址: https://github.com/Belval/TextRecognitionDataGenerator 官方文檔:https://textre

原创 基於STN的場景文字識別框架整理

當前場景文字識別較爲主流的方法分爲 attention mechanism(代表:Show, Attend and Read; Transformer-based attention; 各種各樣的 2D Attention) 和 STN

原创 日常踩坑總結

self.parser.add_argument('--lr_use', action='store_true', default=False) # 終端運行不加入--lr_use,lr_use的值爲default: False, 加

原创 2D Attention Network for Scene Text Recognition

paper地址:2D Attentional Irregular Scene Text Recognizer. 繼 Transformer-based-OCR 後又一篇基於語言、翻譯模型架構的不規則文字識別的paper,主要貢獻如下: a

原创 OpenCV Python 常見圖像預處理與圖像數據增強總結

索引: 圖像預處理 1. 濾波 2. 二值化 3. 通道合併與分離 4. 圖形繪製&添加文字 5. 圖形變換 6. 形態學 7. 視頻&攝像頭 8. 邊緣檢測 9. 閉包矩形 10.直方圖均衡化 11. 霍夫直線檢測 12. 存儲路徑含中

原创 【停更公告】

因爲感覺CSDN的交流學習生態不是特別好,所以博客基本不怎麼用了,平時的話知乎會看的多一點,後續有精力會寫一些文章。 個人目前在商湯實習,浙大計院碩士在讀,方向是OCR(主要是場景文字識別)和 NAS,後續有希望交流或者需要內推的可以在知

原创 Qt5:輸入控件 QPushButton/ QToolButton/ QRadioButton/ QCheckBox/ QTextEdit/ QComboBox/ QSpinBox/ QLabel

作者及原代碼鏈接:跟小豆君學Qt 跟着學習;完整實現代碼;示例截圖;   QPushButton autoDefault:自動默認按鈕,當在一個對話框中,用戶輸入完信息後,想要點擊回車確認,則這時可以設置OK按鈕的autoDefault爲

原创 卷積計算、1x1 卷積、BN、梯度爆炸與消失、ResNet殘差、RoI Pooling 和 RoI Align

卷積輸出計算以及卷積核參數計算        計算量 = ,,即輸入通道數、輸出通道數、卷積核長、寬、輸出特徵圖的長、寬的乘積;        參數數量 =    1 x 1 卷積的作用   參考:1 x 1 卷積的作用        當

原创 關於圖像卷積運算 / 多通道卷積計算 / 反捲積 / 膨脹卷積 / Depthwise卷積 / 羣卷積 的概念和計算總結

之前面試商湯的時候被問了好幾個和卷積有關的概念,有些細節沒答上來,所以稍微總結一下一些相關概念; 卷積的計算和作用; 三種卷積運算 Valid / Same / Full 的區別; 多通道卷積 反捲積(轉置卷積)的概念和作用; 小數步長卷

原创 Qt5 -- 基本控件 / 信號 / 槽

作者及原代碼鏈接:跟小豆君學Qt 跟着學習;完整實現代碼;示例截圖;   QPushButton: #include <QPushButton> QPushButton button; button.setText("This is

原创 Qt5 -- 容器控件 QFrame / QScrollArea / QGroupBox / QTabWidget / QToolBox

作者及原代碼鏈接:跟小豆君學Qt 跟着學習;完整實現代碼;示例截圖;   QFrame:帶邊框的QWidget,有突起或凹陷的效果; QScrollArea: 滾動窗口類,提供了一個垂直和水平的滾動條,用以瀏覽整個窗口; Qt::Scro

原创 計算機視覺方向實習面試總結 (商湯 / 搜狗 / 紐勱 / 普華永道)

目前個人情況:普通211,計算機不是很相關專業大四,已保研,CV方向,所以想找份視覺方向的實習,記錄一下面試的一些情況希望對找相關實習或工作的同學有所幫助。 項目(面試問題基本從項目裏面找的): 植物葉片的實例分割+半自動標註軟件(Mas

原创 深度網絡解析之-Mask RCNN

Mask RCNN 綜合了 Faster RCNN 和 FCN,並且改良了ROI Pooling,提出了ROI Align;   Faster RCNN 架構 (圖片參考 reference): Mask RCNN與Faster RCN

原创 Qt5 -- 常用操作 / 快捷鍵 / OpenCV配置

QString轉換String: std::string s = qstr.toStdString(); String轉換QString: QString qstr2 = QString::fromStdString(s);   快捷鍵: