【AI專欄】識別類評測之數據篇

導語

區別於傳統測試的重路徑,識別類評測更重數據。識別類的輸入不被限制在軟件可控範圍內,而是包羅萬象各種可能。不同的輸入數據組合,得出來的評測結論也會截然不同。手機QQ瀏覽器探索X三地評測團隊在評測數據方面積累了一些經驗,特地寫此文章來和大家分享討論下。

關於探索X

在開始正文前,先來介紹下什麼是探索X。

如下幾個圖所示,打開QQ瀏覽器,首頁上部天氣區域按住向下滑動,就可以進入識別界面,定幀後會出現識別結果。可以是花草貓狗等的科普類名稱識別,也可以是商品識別後的購買鏈接推送,還可以是一些AR效果廣告。總之這是一個入口級別的功能,爲用戶打開了新世界的大門。當然了,作爲當前主打的識別功能,識別準確率是我們要考慮的重要評測指標。

關於識別率的獲取,首先映入腦中的問題是輸入什麼數據來獲取識別率?

這樣一個看似簡單的問題,細分析起來卻很複雜。比如數據應該貼近用戶真實情況,那麼用戶的使用場景是怎樣的?

這些場景的比例設置如何?

怎麼獲取這些數據呢,是否可以使用線上數據?

針對這四個問題,探索X評測團隊進行了多輪的分析和實踐,將分爲場景分類、場景比例、數據生成、數據標註四個部分來進行討論。

本文基於實物識別進行展開,其它方面的識別(例如語音類識別)僅供模型參考。

一、場景分類

數據場景的設計類似於傳統測試中的用例場景設計,需要考慮用戶實際可能會遇到的場景。可以分爲幾個維度,每個維度設置兩端極限值,在兩個極限值之間均勻選取。

當然,除了上表之外還有很多其它維度,讀者朋友可以自行補充。不是每次測試都要把所有維度覆蓋全面,與項目組討論選取幾個更具指導價值的維度即可。結合實際案例舉例如下圖所示,分別是測試可樂、花草、二維碼的數據場景。

二、場景比例

在確定了要有哪些場景分類後,就到了量的問題了。

可以各種場景比例都配比爲1:1,這樣可以看出每種場景下的識別能力差異,有針對性的提高。但是有個新的問題,比如項目組就想知道當前花草的識別率能達到一個多少,我們固然可以說各種情況下的不同值,但是綜合來看呢?這就涉及到了每種場景的計算權重比例。注意這是權重比例,是在計算時使用,而不是實際執行時的具體數據數量。

場景比例需要考慮四個方面:產品目標、場景概率、用戶習慣和上報統計。

以瀏覽器識別來看,如下圖所示,從產品目標來說當前宣傳引導主要是拍花識草,產品定位更傾向於花草,因此樹幹類的權重就要降低一些。

從場景概率來說,以常見物種爲主,像“屍香魔芋”之類的玄幻物種用戶基本拍攝不到(因爲我們目前還是以真花爲主,電視劇中出現的假花識別不在範圍內),另外一個近拍爲主,對於遠景用戶有心理預期,較遠距離識別的概率低。

從用戶習慣來看,之前這個識別入口主要是用來進行二維碼識別的,所以還存在大量用戶識別二維碼的需求,二維碼的權重要高或者單列一個獨立指標,另外用戶對發生識別行爲的動力中有一種分享心態,因此對那些比較名貴的花朵、珍稀動物比較傾向,我們可以去植物園動物園之類用戶常發生分享的地方採集數據,這部分的計算權重也要高。

最後一個方面是上報統計,如果說前面的幾個方面都是版本發佈前的合理預估,最後一個方面就是真實數據的指導了,通過上線後大量的用戶數據上報可以進行分類統計,來觀察各種場景構成的比例,指導後面的數據場景比例。

最後權重比例如上圖最右側所示,權重最高的是常規測試數據,極簡模式和高複雜度的數據權重都較低,呈現一個紡錘型的統計比例。結合具體案例如下圖所示,按照場景分類進行比例分配。圖中的數據看起來都是整數,只是爲了方便記錄,實際統計的時候進行舍入過了。二維碼中特殊形狀、背景易混淆和僞二維碼都屬於高複雜度的,權重較低。植物中花、葉、樹都比例有定義外,每個分類的遠景近景也都有比例。

三、數據生成

通過場景分類和比例,基本上數據方案就已經定下來了。接下來面臨的問題是從哪裏獲取這些數據。我們將數據集合分爲三類:原生數據、構造數據和用戶數據。這三類數據怎麼生成的接下來會介紹。

如下圖所示通過網絡爬取所需數據,加上通過衆測平臺人工採集的數據,經過數據清洗(檢查是否符合各項數據要求)。比較好的數據圖可以直接作爲原生數據(一般指圖片清晰,目標物體大小居中);一部分圖片可能還需要二次加工纔可以使用的,也就是所說的構造數據。

構造數據主要是通過畫中畫和條件中心兩種形式進行構造。

畫中畫是通過兩張以上的圖片擬合到一起(例如物體旁邊加上二維碼,形成背景干擾),或者扣取的形式從原圖中取目標對象(例如一幅畫中存在多種花,可以扣取出來形成多個數據源)。

條件中心是指通過對圖片進行壓縮達到掃描尺寸(有些圖片過於大超出識別邊界,可以做適度壓縮),或者按照目標對象在圖片中的位置進行分類,組成居中、左側、右側等不同識別位置。如果版本已經發布,通過上報數據進行標註,可以獲得更加真實的用戶數據。

標註數據的內容會在第四部分講解。

結合項目節奏動態來看,如下圖所示,從數據採集(或者網絡爬取)到數據清洗、分類定級(場景分類和識別定級)、構造數據、測試後調整(需要補充數據源或者去掉一些數據)再到最後的線上數據標註,形成一套不斷循環代謝的動態數據。

四、數據標註

在第三部分提到了用戶數據是通過對上報數據進行標註來獲得的,本部分就具體看下是怎麼標註的。首先被標註的上報數據分爲兩類:有真假結果上報的數據和無法獲知正確性的數據。

有真假結果上報的數據,是指類似二維碼識別這種,有“真”、“假”結果上報判斷的數據。

標註方法如下圖所示,將線上數據報上來的判別爲真的二維碼和判別爲假的二維碼再經過一輪人工檢查,找出其中的真真TP(true positive,數據的真實類別爲真,最後上報得到的結果也爲真),假真FP(false positive,數據的真實類別爲假,最後上報得到的結果卻爲真),假假FN(false negative,數據的真實類別爲真,最後上報得到的結果卻爲假),真假TN(true negative,數據的真實類別爲假,最後上報得到的結果也爲假)。其中FN和TN數據可能會混入掃物結果裏或者判斷爲無法識別,這部分數據需要單獨去撈取。

有人可能質疑,在二維碼這種數據中,可能存在不是二維碼而識別成二維碼的情況嗎?

答案是存在的,比如用戶本來是要掃商品,結果正好面對攝像頭的那一面有二維碼,這屬於誤入了二維碼界面,而沒有去到本來進入商品界面。這種圖片就不能直接進入二維碼測試集合,而是要經過處理,或者放到掃物用例結合裏(作爲高複雜度的數據用例)。

最後匯入測試集合的時候按照紡錘型的模式進行權重配比。這種標註的損耗率比較低,標註完後還能存有73%的數據(有一些是廢圖,比如模糊的或者目標物體識別錯誤的)。

無法獲取正確性的數據是指花草或者貓狗這類數據,這些識別結果上報後,無法獲知我們識別的是否正確,經過預分類處理後,還需要人工來進行精準標註。

人工對比定妝照或者尋求專業人士的來幫忙標註,這裏要注意是多態的保留。

例如花朵的多角度圖片,這是爲了保持數據的多樣性,從而滿足場景分類中各個維度需求。這種標註高損耗,10萬張圖片標註下來只有600餘張可用圖片。耗時也比較長,後期我們採用多競品對比的方式先進行一輪自動化標註,方便人工針對性的確認,這樣就將精準標註簡化爲類似第一種有真假結果上報的數據標註了。

例如多個競品都標註爲“加菲貓”,那麼只需要人工對比定妝照確認是該圖是否加菲貓即可,不必在整個庫裏尋找。

關於評測類數據篇就介紹到此。

總結一下,從場景分類、場景比例、數據生成、數據標註這四個方面來看,共同之處就是以用戶實際爲依據,科學計算,不斷更新。在數據獲取和處理的方式上還要持續提升效率。

下篇我們會給大家展示識別類評測在測試方法上的總結,敬請期待。

關注微信公衆號騰訊移動品質中心TMQ,獲取更多測試乾貨!

發佈了162 篇原創文章 · 獲贊 103 · 訪問量 34萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章