詳解數據標註的種類

在我之前的文章中已經介紹過了,什麼是人工智能下的數據標註,並簡單介紹了數據標註的類別及其應用,下面我將詳細介紹一下數據標註的種類讓大家對數據標註有一個更深入的瞭解。

一、 圖像類

  1. 矩形拉框:這個在數據標註中屬於2D拉框,通常需要拉一個矩形框貼合框選出待檢測物體(人,動物,汽車等等)。框選出待檢測物體之後還需要對所選框添加一個或多個標籤進行註明,以人爲例的話可能需要註明人的性別、年齡、衣着等。
  2. 多邊形拉框:多邊形拉框和矩形拉框類似,不過多邊形拉框的要求更高需要圍繞標註元素的輪廓進行標註,多以點框的形式進行。多邊形拉的框往往也需要添加標籤來對元素進行註明。
  3. 打點:打點需要根據要求對人臉或關鍵部位進行打點標註,往往此類標註會對每個點的位子進行限制和要求,從而實現高精度的檢測識別。此類標註對人員的要求較高,但相應標註的單價也會高很多。
  4. OCR識別:OCR識別分爲兩部分一部分是拉框,框選出待檢測部位此部分與上述多邊形拉框較爲相似多用點框的方式進行操作,第二部分則需要對框選部分的內容進行高準確性轉寫。此類打標好的數據往往應用於文本檢測模型的訓練。
  5. 語義分割:此類標註與拉框打點比起來佔的比例較少,但目前此類標註有增加的趨勢。此類標註需要對圖片內的元素進行區分,並對每部分分別進行標註填色,一般需要先向ps摳圖那樣講此部分元素摳出來然後再選擇屬性標籤,這樣此部分元素就切割出來了。
  6. 圖片審覈分類:此類標註需要根據要求對張圖片進行判定。有的是需要將圖片進行分類,有的是判斷圖片內容時候符合要求,也有的是判斷兩張圖片或幾張圖片時候屬於一類。
    下面分享一篇文章,詳細介紹了圖片類標註經常使用的工具和平臺,感興趣的可以看一下。
    http://blog.51cto.com/14028810/2307977

    二、 語音類

  7. 語音轉寫:語音轉寫屬於最常見的一種語音標註了,標註人員需要聽一段語音然後將聽到的語音轉寫出來。根據語種可以分爲中文,外文,方言等。根據時長可以分爲段語音和長語音一般一分鐘以下(通常爲三秒左右)的語音爲短語音,其中語音的長短,聲音質量,有無預打標結果,是否需要切割等因素都會較大的影響語音轉寫的難度。
  8. 其他類語音標註:其他類的語音標註比較佔的比例比較小,如給一段文本和語音判定文本和語音內容是否對應,又或者是給一段語音標註人員對語音進行鑑定聽是不是包含違法敏感元素。
    下面分享一篇文章,詳細介紹了語音類數據標註涉及的工具和數據標註平臺
    https://blog.csdn.net/qq_21379593/article/details/83027091

    三、 文本類

  9. 情感標註:此類標註通常需要判定一句話包含的情感,如三級情感標註(正向,中性,負向),要求高的會分成六級甚至十二級情感標註。
  10. 實體標註:實體標註需要將一句話中的實體提取出來,如電視,足球,門等。有時候還需要將劃分這句話的類別如音樂,百科,新聞等或者是標註出文本中的動作指令(開門,播放等)。
  11. 相似性判斷:這種標準多集中在兩個文本之中,通常需要判斷兩句話表達的含義是否一致。如果一致標1,不一致標-1,無法判定標0.
  12. 其他類文本標註:其他類的文本標註如輿情標註,判斷一段文章提及的公司是積極還是消極的影響。還有文章敏感性檢測判斷文本內容有無違法敏感信息。
    因爲敏感標註常在線下進行一般Excel就可以搞定所以在此不在分享文本標註涉及的數據標註工具和數據標註平臺了。

    四、 採集類

    因爲在我的其他文章中有大篇幅介紹了採集類的標註了在此就不詳細介紹了,感興趣的可以點擊下面文章的分享鏈接查看。
    http://blog.51cto.com/14065470/2314920

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章