訓練機器學習模型時如何評估數據質量

A Deep Dive Into Benchmarks, Consensus and Review

訓練數據的質量對於模型表現至關重要。我們用一致性和標註數據準確率來評估質量。業內評估訓練數據質量的基本方法是benchmark(aka gold standard),一致性和檢查。作爲AI數據科學家,工作中一個重要任務就是如何有效組合應用這些數據質量保證方法。

在這邊文章中,你會學到:

*數據質量,一致性和準確率的定義以及它們的重要性

*業內用來量化質量的標註方法

*自動化質量保證流程的最前沿工具

 

一致性 vs. 準確率

數據質量決定於一致性和準確率。不但包括這個數據標註的多少準確,還包括一段時間內準確的次數有多少。下面介紹業內用於評估一致性和準確率的基本方法。

一致性指的是一個標註員的標註和其他人標註一樣。一致性通過確保標註員標註同樣的準確或者同樣的錯誤來防止數據隨機噪音。一致性是通過共識算法來衡量的。 如果沒有自動化的最先進的AI工具,此過程將是手動的,耗時的並且有安全責任。 由於標籤可能始終正確或錯誤,因此僅靠高一致性不足以完全說明質量。

準確性衡量的是標籤與“ground truth”的接近程度。 Ground Truth數據是由知識專家或數據科學家標記用來測試標註員準確性的訓練數據的子集。 準確性是通過Benchmark衡量的。 Benchmark使數據科學家能夠監視其數據的整體質量,然後通過深入瞭解標註員工作的準確性來調查和解決可能引起質量方面的任何潛在下降的原因。

複查是確保準確性的另一種方法。 標註完成後,有經驗專家會檢查標籤的準確性。 複查通常通過目視抽查某些標註來進行,但是某些項目會審查所有標籤。 複查通常用於識別標註過程中的低準確性和不一致,而Benchmark通常用於感知標註員表現

基準往往是最便宜的質量保證選項,因爲它涉及的重疊工作量最少。 但是,它僅捕獲訓練數據集的子集。 共識和複查的花費多少取決於共識設置和審查比例(兩者都可以設置爲數據集的0-100%,並且同時分配給多個標註員)。

Quality Workflows

理想情況下,質量保證是一個自動化過程,可在您的訓練數據開發和改進過程中持續不斷地運行。 藉助Labelbox共識和benchmark測試功能,您可以自動化一致性和準確性測試。 通過測試,您可以自定義要測試的數據的百分比以及用於標註測試數據的標註員數量。 對於許多數據科學家而言,發現一個項目的質量保證測試的最佳組合通常是一個新興的過程,通過實驗會越來越清晰。

Benchmarks

Benchmarks 工作流

  1. 給一個標註好的標籤添加星星標誌來添加新的benchmark
  2. 系統自動把標註爲benchmark的任務分給標註員
  3. 通過標註員(3a)或benchmark(3b)跟蹤項目的整體質量,並深入研究任何偏差產生原因

Benchmarks舉例

下面以一個水母項目舉例說明上面概述的benchmark測試工作流程。 該項目使用矩形邊界框。一旦啓動了項目並標記了Groundtruth數據,就可以用基準星標記標籤。(問題:誰有權限標註benchmark數據?標註多少benchmark數據? benchmark和groundtruth數據的區別?

由於隨機分配給標註員benchmark數據,因此您可以使用整體質量圖監控項目質量。

要解決質量下降的問題,可以按標註員或benchmark作爲維度來研究。

Systemic poor labeler performance is often indicative of poor instructions, while poor performance on certain pieces of data is often indicative of edge cases. Data scientists use these values to help them improve labeler on-boarding and education processes.

普遍上的標註不佳通常是因爲培訓不到位,而某些數據的性能不佳通常是因爲某些特殊例子沒有完全理解或者考慮到。 數據科學家利用這些信息來幫助他們改善標註員的入職和培訓流程

通過點擊benchmark準確率65%的圖片,您可以看到擁擠的水母圖像並將其與基準進行比較。(這個65%是怎麼得出的?)

儘管它們非常相似,但標籤傾向於在每個框中包含多少觸手上存在分歧。 在這裏,您可以編輯,刪除或重新排列標籤。

數據標記是一個迭代的過程。 當我們對項目變得更加了解時,我們認爲應該標記的內容的想法通常會演變。 例如,也許在一開始我們認爲應該標記整個水母。 但是,很長的細密的觸角觸手可能會使模型感到困惑,而不是改善其性能。 該模型可能會開始識別銀色的線,尤其是在照片邊緣附近,認爲那很可能被遮擋的水母,實際上可能只是水下植物碎片或海葵的卷鬚。 因爲這不是一個公認的問題,在數值和視覺上監視和迭代訓練數據的能力經常被低估。

一致性

一致性衡量多個標註員標註的一致性(人或者機器)一致性分數是通過標註一致的標籤除以標籤總數得到的

一致性工作流程

啓用一致性並自定義共識參數
(自動)隨機標籤以隨機間隔分佈在各個標籤上
跟蹤整體一致性並通過查看各個標籤商和標籤一致性分數來調查質量下降情況
共識示例

要配置共識,您可以自定義訓練數據的百分比和要測試的標籤數量

共識工作流程

1.啓用共識並自定義共識參數
2.系統自動隨機把任務分配給不同標註員
3.跟蹤整體一致性並通過查看單獨標註員和標籤共識性分數來調查質量下降情況
共識示例

要配置共識,您可以自定義訓練數據的百分比和要測試的標籤數量。

 

使用共識直方圖監控總體一致性

按項目(asset)細分共識得分。 在這裏您可以比較特定圖像的標籤。 這是研發的協作部分,使AI團隊可以在項目上進行創新。 意見分歧可能是從其他角度思考問題的機會,而這反過來又可能引發新的解決方案。

通常情況下,數據標記有敏捷的進展。 通常,生產中最成功的AI模型的標註任務會隨着時間的推移而發展,以更好地適應其用例。 這意味着,隨着視覺工程師對問題的更加熟悉,他們可以分解問題並逐步解決問題,並通過模型爲其他模型整理圖像,以提高效率。 換句話說,有效的建模通過創建原子任務生產線來發揮機器的重複性和精度優勢。

Typically,  there is an agile progression to data labeling. Often the most successful AI models in production have had labeling tasks that evolved over time to better fit their use cases. Meaning, as visual engineers get more familiar with the problem they are able break it down and solve it in steps with models curating images for other models down the line to drive efficiencies. In other words, effective modeling plays to the repetition and precision strengths of machines by creating a production line of atomic tasks.

複查

通過人與機器之間緊密的反饋循環控制數據,使團隊能夠構建出色的ML應用程序。 可視化數據至關重要,這不僅對於解決質量問題很重要,而且對於深入瞭解機器學習問題和爲機器學習問題提供完善的解決方案也至關重要。

審查工作流程

審閱是手動而不是自動化的過程。 這是使人陷入困境的一部分。

選擇要查看的標籤
查看,修改或重新排隊標籤


複查示例

過濾選項可幫助標註經理確定要檢查的標籤的優先級。 如下圖所示,可用的過濾器包括標籤,共識分數,包含的標籤等

 

複查的人通常是表現最好的標註人員或內部知識專家。 要查看標籤,有拇指向上和向下的圖標。 審閱者還可以選擇在現場修改或更正標籤。 此外,單擊三個垂直點可讓您刪除標籤並重新加入標籤,在適用時查看基準,並複製鏈接以發送給其他協作者.

Conclusion

Creating training data is often one of the most expensive components of building a machine learning application. Properly monitoring training data quality increases the chance of having a performant model the first time around. And, getting labels right the first time (first pass quality) is far cheaper than the cost of discovering and redoing work to fix the problem. With world class tooling at your fingertips, you can ensure your labeling maintains the level of quality you need to get the modeling results you want.

With Quality Assurance processes data scientists can:

  • Monitor overall consistency and accuracy of training data
  • Quickly troubleshoot quality errors
  • Improve labeler instructions, on-boarding, and training
  • Better understand the specifics to their project on what and how to label

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章