CV學習筆記（十九）：文本數據集生成(text_renderer)

原創

2021-02-05 21:13

作者：雲時之間
來源：知乎
鏈接：https://zhuanlan.zhihu.com/p/138733491
編輯：王萌

在上一次我們進行完銀行卡卡號定位後，有一個問題在於我們沒辦法獲得很多的銀行卡圖片來進行訓練，比較常規的方法是我們來使用銀行卡圖片的背景，來生成含有銀行卡卡號的數據集來讓機器進行訓練。在這裏我用的是GitHub上的一個開源項目，github.com/Sanster/text，功能很全面，這篇文章將說說如何使用這個開源項目。

署好項目後，直接運行main.py就可以生成默認的參數。

這裏默認的參數，在config->default.yaml中可以修改，比如字體的顏色，隨機生成的文字，背景，文字的亮暗,以及給圖片加噪聲，功能很強大，各種數據都很容易僞造。

因爲是僞造銀行卡，我選擇了一些銀行卡的背景信息，儘量保證圖片中干擾少，但是現在銀行卡五花八門，這樣的也得考慮到。

現在在銀行卡中因爲分爲儲蓄卡和信用卡，儲蓄卡大多用的是Barcodesoft 的 Farrington 7B，是圖下這種感覺，也有部分銀行採用的是黑體和隸書。

而信用卡還有一種壓單交易的方式，就是利用信用卡正面突起的信息在壓敏單據上壓出信息，字體需要突出有銳利，一些銀行會採用楷體，不過還是會有很多銀行仍使用Farrington 7B。

知道前提這些消息後，我們現在需要對項目的一些參數進行修改，來產生我們所需要的圖片

1：進入text_renderer\data\bg，選取你想要的背景(這裏我選擇的是銀行卡背景)

2：進入text_renderer\data\corpus，這裏邊是你要產生的內容，因爲銀行卡號都是數字(儲蓄卡19位，信用卡16位)，刪除原來的文件，新建一個這樣類型的txt

3:進入parse_args.py,修改一些參數，在parse_args()函數裏，我們可以調節產生的圖片數量(默認20)，產生數字的長度(默認10)，因爲後續要喂到CRNN中，我這裏的尺寸爲280*32，需要修改：

這裏的chars_file改成eng.txt，因爲數字在英文字符中

這裏的fonts_list改爲eng.txt，是英文字體列表，我們要把剛纔上文中所說的字體放到相應的文件夾下

現在修改完了，運行main.py即可：

生成的圖片如上所示，但是打開tmp_lable.txt來看：

第一列是文件名，第二列是我們圖片的內容，我們模型所需要的數據集格式爲：第一列文件名.格式，第二列圖片內容。在這裏，我們修改下main.py:

這樣，我們就得到了符合格式的數據集：

多改改參數，樣本多樣化一些，訓練即可

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ollama使用

ollama 僅支持。gguf的格式其他格式需要llama.cpp 轉換 curl https://ollama.ai/install.sh | sh ollama --version ollama pull llama2-chin

2024-05-01 00:42:55

DataGear 5.0.0 新特性之圖表追加更新模式

DataGear 企業版 1.1.0 已發佈！ http://datagear.tech/pro/ DataGear在新發布的 5.0.0 版本中，新增了圖表追加更新模式支持，包括dgUpdateAppendMode圖表選項，以及chart

2024-04-28 21:42:27

WPF應用實戰開發指南 - 如何結合阿里矢量圖標庫使用Geometry圖標？

在SqlSugar開發框架的WPF應用中，有時候需要在按鈕或者其他界面元素上使用一些圖標，框架中我們可以使用 lepoco/wpfui 項目的圖標庫，也可以使用Font-Awesome-WPF 圖標庫，另外如果喜歡阿里矢量圖標庫的，也可以通

界面開發小八哥

2024-04-28 11:35:52

DataGear 5.0.0 新特性之dgMap圖表選項

DataGear 企業版 1.1.0 已發佈！ http://datagear.tech/pro/ DataGear在新發布的 5.0.0 版本中，重構了地圖類圖表，新增了dgMap圖表選項，可以更方便靈活地設置圖表地圖。在 5.0.0

2024-04-26 21:42:31

6個實例帶你解讀TinyVue 組件庫跨框架技術

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

MySQL 核心模塊揭祕 | 15 期 | 事務模塊小結

✍ 專欄小結 1 月 3 日，我在社區發佈事務模塊的第一篇文章；4 月 17 日，發佈了最後一篇文章。歷時 3 個半月，用 14 篇文章對事務模塊做了比較全面的介紹。本文我們對事務模塊已經發布的 14 篇文章做個簡單回顧。 01 期《事

2024-04-24 23:20:56

一則 TCP 緩存超負荷導致的 MySQL 連接中斷的案例分析

除了 MySQL 本身之外，如何分析定位其他因素的可能性？作者：龔唐傑，愛可生 DBA 團隊成員，主要負責 MySQL 技術支持，擅長 MySQL、PG、國產數據庫。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註

2024-04-24 23:20:53

自學編程兩個月，現在我月入 4 萬元

這個外國小哥叫 Nico，他一開始是個編程小白，後來把自己關在房間裏花了兩個月時間學會了編程，如今正在開發一款名爲 Talknotes 的應用，可以將語音備忘錄轉化爲結構化的內容，月收入 5000 美元。 Nico 從高中畢業就開始創業，

2024-04-24 21:14:29

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

RAG 修煉手冊｜如何評估 RAG 應用？

如果你是一名用戶，擁有兩個不同的 RAG 應用，如何評判哪個更好？對於開發者而言，如何定量迭代提升你的 RAG 應用的性能？顯然，無論對於用戶還是開發者而言，準確評估 RAG 應用的性能都十分重要。然而，簡單的幾個例子對比並不能全面衡量

2024-04-23 21:20:22

MyDumper “喜歡” 觸發器麼？

是的，但現在它更“喜歡”它們，原因如下。介紹使用 LIKE 子句過濾特定表中的觸發器或視圖很常見。但是，它可能會欺騙您，特別是如果您看不到輸出（即在非交互式會話中）。讓我們看一個簡單的例子，以及如何以更可靠的方式處理任務。還有一個指向

2024-04-22 23:19:50

一次奇妙的任意用戶登錄實戰

剛剛進行了微信sessionkey的學習，正準備實戰一下，就發現了這個神奇的網站，預知後事如何。請繼續向下看去 1. 目標 2. 開局一個登錄框 3. 首先，直接弱口令走起來，萬一留有測試的賬號呢嘗試，1311111111，1333

2024-04-22 22:46:11

輕鬆復現一張AI圖片

輕鬆復現一張AI圖片現在有一個非常漂亮的AI圖片，你是不是想知道他是怎麼生成的？今天我會交給大家三種方法，學會了，什麼圖都可以手到擒來了。需要的軟件在本教程中，我們將使用AUTOMATIC1111 stable diffusio

2024-04-22 21:30:45

ACK One x OpenKruiseGame 全球遊戲服多地域一致性交付最佳實踐

作者：劉秋陽、蔡靖前言在當今全球一體化的經濟環境下，數字娛樂產業正日益成爲文化和商業交流的有力代表。在此背景下大量遊戲廠商嘗試遊戲出海並取得了令人矚目的成績，許多遊戲以全球同服架構吸引着世界各地廣泛的玩家羣體。遊戲全球化部署不僅擴大了單

2024-04-30 21:12:18

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

24小時熱門文章

最新文章

最新評論文章