基於nlp自然語言預測模型
在建模訓練過程中遇到如下問題,供大家學習,借鑑
1.數據集字符編碼問題 ,'utf-8' codec can't decode byte 0xb1 in position 2: invalid start byte 錯誤處理.
;
2.AttributeError: 'Example' object has no attribute 'label'錯誤提示
如下問題
1. 數據集字符編碼問題 ,'utf-8' codec can't decode byte 0xb1 in position 2: invalid start byte 錯誤處理
.
;
2. 建模過程中遇到 AttributeError: 'Example' object has no attribute 'label'錯誤提示
;
字符編碼問題解決方案:
運行提示錯誤:字符不能正確讀取
具體方法如下,重新讀取數據集,修改數據集編碼方式,更改以爲utf8:
具體代碼如下
def check_utf8():
# python3
path = 'd:/data/train10400.csv'
up_path = 'd:/data/10400_urf8.csv'
f = open(path, "r") #讀取數據集
fw = open(up_path, "wb") # 二進制格式寫入文件
i = 0
while True:
i += 1
line = f.readline()
if not line:
break
else:
try:
fw.write(line.encode(encoding='utf-8'))#編碼設置utf-8
except:
# print(i)
print(str(line))
這樣再次運行,正確執行,無編碼格式報錯問題
處理 AttributeError: 'Example' object has no attribute 'label
錯誤問題
錯誤原因,是因爲數據格式問題導致
如何解決訓練模型過程中數據集錯誤問題
- 預處理數據,代碼效驗
- 對數據進行,模型檢測
我們通過debug模型,查找出問題數據
在數據集定位當前數據,明顯發現23行與其他數據集格式不相匹配
**修改23行格式錯誤數據**
**重新運行項目,查看結果**
成功解決報錯問題