通過MultiLabelBinarizer進行multi-label分類任務的數據預處理

(Pandas: How to prepare a Multi-Label Dataset? )

 

當進行mutli-class多標籤分類任務的數據集構建時,通常我們會需要對如下這樣的csv進行處理:

使用sklearn中MultiLabelBinarizer,只需簡單的四行代碼,即可轉換成模型所需要的數據集格式,具體代碼如下:

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb_result = mlb.fit_transform([str(df.loc[i,'categories']).split(' ') for i in range(len(df))])
df_final = pd.concat([df['text'],pd.DataFrame(mlb_result,columns=list(mlb.classes_))],axis=1)
df_final

操作完畢並保存,即可直接輸入多標籤分類bert模型中進行fine-tuning。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章