(Pandas: How to prepare a Multi-Label Dataset? )
當進行mutli-class多標籤分類任務的數據集構建時,通常我們會需要對如下這樣的csv進行處理:
使用sklearn中MultiLabelBinarizer,只需簡單的四行代碼,即可轉換成模型所需要的數據集格式,具體代碼如下:
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb_result = mlb.fit_transform([str(df.loc[i,'categories']).split(' ') for i in range(len(df))])
df_final = pd.concat([df['text'],pd.DataFrame(mlb_result,columns=list(mlb.classes_))],axis=1)
df_final
操作完畢並保存,即可直接輸入多標籤分類bert模型中進行fine-tuning。