sklearn中transform和fit_transform的區別(解決中文向量化特徵不一致問題)

產生問題的原因:

本人在做一個自己的情感分析評測模型,但是在使用sklearn的TfidfVectorizer將分詞好的文本轉化爲向量的時候出現了問題,將分詞中文轉爲詞向量後其實他的特徵是一定了的也就是固定的,如果現在有新的一句話進來使用剛保存好的tfidf模型轉化向量的列也就是特徵是和訓練的數據不一致的,原因是你可能使用了fit_transform對新的中文列表(分詞好的)進行向量化。

解決辦法:

解決辦法很簡單,就是使用sklearn的transform進行詞向量的生成,它是在原來特徵基礎上進行構建向量,所以在後期進行predict的時候就不會出現維度不一致的報錯!

總結:

如果想仔細瞭解學習兩者之間的區別請到下面的博主進行學習。

https://www.wandouip.com/t5i96455/

https://blog.csdn.net/tristan_tian/article/details/100132775

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章