使用word2vec模型亂碼不可用的解決方法

原創

班得瑞的猫

2020-02-22 02:01

今天在利用word2vec訓練模型的時候發現模型不可用。仔細排查了一下，發現是讀寫文件編碼不統一的問題。

try (BufferedReader br = new BufferedReader(new InputStreamReader(
        new FileInputStream(file),"UTF-8"))) {
      String temp = null;
      while ((temp = br.readLine()) != null) {
        String[] split = temp.split(" ");
        trainWordsCount += split.length;
        for (String string : split) {
          mc.add(string);
//          System.out.println("詞語：" + string);
        }
      }
    }

後來在算法訓練工具類learn裏面修改了讀取文件時的編碼（如上）。順利進行後續操作。

班得瑞的貓

發佈了41 篇原創文章 · 獲贊 23 · 訪問量 7萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

中文巨量模型“源1.0”的學習優化方法

最近，浪潮人工智能研究院發佈了中文巨量模型“源1.0”，參數量達2457億，超越美國OpenAI組織研發的GPT-3。“源1.0”在語言智能方面表現優異，獲得中文語言理解評測基準CLUE榜單的零樣本學習（zero-shot）和小樣本學習（f

2021-12-25 21:30:24

個性化推薦算法整理(二)

接個性化推薦算法整理基於深度學習的個性化召回推薦算法item2vec item2vec是基於word2vec的原理，word2vec的詳細內容請參考Tensorflow深度學習算法整理(二) 我們先將原始數據文件轉換成訓練數據集文件

2021-12-25 21:23:44

機器學習中有哪些形式簡單卻很巧妙的 idea？

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜

機器學習算法與Python實戰

2021-03-22 21:14:51

Extracting, transforming and selecting features

This section covers algorithms for working with features, roughly divided into these groups 本節介紹使用功能的算法，大致分爲以下幾組：提取: 從

2021-02-17 21:31:57

小白跟學系列之手把手搭建NLP經典模型-2（含代碼）

作者：雲不見鏈接：https://www.yuque.com/docs/share/833ad5cf-c731-4cd9-ac46-83b62954f84a?#編輯：王萌上一篇我們講到了最簡單的詞向量表示方法——共現矩陣（沒有看的朋友

2021-02-05 21:31:55

語義分析的一些方法（中篇）

前面講到一些文本基本處理方法。一個文本串，對其進行分詞和重要性打分後（當然還有更多的文本處理任務），就可以開始更高層的語義分析任務。 2 文本語義分析 2.1 Topic

2021-01-30 11:14:05

推薦：騰訊開源的詞向量精簡版本下載

騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量數據，該數據包含800多萬中文詞彙，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提高，爲對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。但是有一個很

2021-01-30 10:45:34

一文看懂基於內容的推薦算法

作者 | gongyouliu 來源 | 數據與智能從本篇開始我們來詳細講解各類推薦算法。這篇文章我們主要關注的是基於內容的推薦算法，它也是非常通用的一類推薦算法，在工業界有大量的應用案例。本文會從什麼是基於內容的推薦算法、算

2021-01-30 10:30:14

deepFM模型理論和實戰

推薦系統遇上深度學習系列：推薦系統遇上深度學習(一)--FM模型理論和實踐：https://www.jianshu.com/p/152ae633fb00 推薦系統遇上深度學習(二)--FFM模型理論和實踐:https://www.jian

2021-01-30 09:28:28

2021年的第一盆冷水：有人說別太把圖神經網絡當回事兒

來源：數學中國圖神經網絡（GNN）是機器學習中最熱門的領域之一，在過去短短數月內就有多篇優秀的綜述論文。但數據科學家 Matt Ranger 對 GNN 卻並不感冒。他認爲這方面的研究會取得進展，但其他研究方向或許更重要。博客鏈接

2021-01-30 09:17:41

使用Gensim庫來實現Word2Vec

Gensim Gensim是一個開源庫，用於無監督的統計建模和自然語言處理，用Python和Cython實現的 Gensim庫來實現Word2Vec Word2Vec被認爲是自然語言處理（NLP）領域中最大、最新的突破之一。其的

2020-06-28 11:00:23

文本轉化爲向量

假如有一句話"I am a student"。用向量來表示每個單詞，採用one hot 編碼表示方式： I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

2020-06-27 16:51:00

Representation Learning（詞嵌入NNLM，word2vec，GloVe）

NLP(Natural Language Processing) NLP主要是關注計算機和人類(自然)語言之間的相互作用的領域。如果要想實現人機間自然語言通信意味着要使計算機既能理解自然語言文本的意義，也能以自然語言文本來表達給

2020-06-24 21:52:42

深度學習word2vec筆記之基礎篇算法篇應用篇--寫的非常到位

深度學習word2vec筆記之基礎篇聲明： 1）該博文是多位博主以及多位文檔資料的主人所無私奉獻的論文資料整理的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻 2）本文僅供學術交流，非商用。所以每一部分具

2020-06-23 04:32:22

24小時熱門文章

最新文章

最新評論文章