評估統計算法在銀行僞造鈔票檢測中的價值

原創

2024-05-16 13:00

數據科學項目

“評估統計算法在銀行僞造鈔票檢測中的價值”

by 吳同學

目的

這個數據科學項目的目的是提出一種可靠的算法，以便通過光學掃描儀或類似工具，銀行可以區分“真鈔”和“僞造”鈔票。一般來說，光學掃描儀會檢測每張鈔票的某些特徵，並將它們發送到一個算法，該算法將建議將鈔票分類爲“真鈔”或“僞造鈔票”。然後，“僞造”的鈔票將退出流通。

我們的建議是使用一種稱爲“k-means聚類”的技術的統計算法。

數據說明

爲了評估這是否是分離鈔票的好方法，我們對 1372 張鈔票樣本進行了測試，這些樣本取自 OpenML 網站，由於其尺寸很大，這對我們來說似乎是一個很好的樣本。該樣本包含從每張鈔票（V1 和 V2）中獲取的 2 個特徵，這些特徵實際上是從真僞和僞造的類似鈔票的樣本中提取的圖像中提取的。

圖1 - 原始數據

如示例數據描述中所述，對於數字化，使用了通常用於印刷檢查的工業相機。最終圖像具有 400x 400 像素。由於物鏡和與被研究物的距離，獲得了分辨率約爲660 dpi的灰度圖像。使用一種特殊的工具（稱爲“小波變換”）從圖像中提取特徵。

方法：如何分析數據

首先通過描述性統計（例如平均值、標準差、最大值、最小值）分析數據，以瞭解樣本特徵。然後，我們繪製了結果。

圖2 - 原始數據散點圖

之後，我們還使用了一種稱爲“最小-最大標準化”的技術，以便爲分析適當縮放數據。

最後，我們對數據運行了 2 均值算法，以分析它是否能夠區分真鈔和僞造鈔票的 2 簇。我們運行了幾次以評估其整體穩定性。

圖3 - 數據2均值聚類

這種方法的強度和侷限性

我們分析的主要優點是所使用的算法非常容易實現，並且快速高效。我們分析的侷限性在於，我們假設樣本數據代表了流通中的紙幣（包括真鈔和僞造鈔票）的總體數量。此外，據我們所知，該樣本是在 2012 年收集的。過去 11 年的技術進步可能會改變樣品的可靠性。

在建模方面，我們使用了 k - means聚類技術，因爲它看起來適合這種分析，儘管可能已經實現了其他有用的技術，例如 DBSCAN 聚類。進一步的分析可能會嘗試比較這兩種方法，以評估哪一種似乎更好。

結果摘要

最後，我們將模型預測與觀察數據中的實際鈔票分類進行了比較。該模型最終的預測成功率爲 87%，這絕對比隨機猜測要好。

因此，我們建議使用此算法來自動檢測僞造鈔票

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.