原创 pyhanlp添加自定義詞典 強制優先自定義詞典分詞

自定義詞典 自定義詞典有多種添加模式,首先是展示的一個小例子,展示了詞彙的動態增加與強行插入,刪除等。 一、代碼方式插入 from pyhanlp import * text = "攻城獅逆襲單身狗,迎娶白富美,走上人生巔峯"  # 怎麼

原创 java hanlp自定義詞典

import com.hankcs.hanlp.HanLP; import com.hankcs.hanlp.seg.Segment; /** * @Auther: Don * @Date: 2019/12/110:17 * @

原创 java把list轉化爲逗號分隔字符串

package fm.rcmd.lizhi.util; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.u

原创 java深度學習庫deeplearning4j使用之word2vec與INDAarry

import org.deeplearning4j.models.embeddings.loader.WordVectorSerializer; import org.deeplearning4j.models.word2vec.Word

原创 Git從master拉開發分支|合併分支|刪除遠端分支命令 一文打盡

# GitCommandLearning learning the command of Git ##創建分支並切換的原理 之前提到的 HEAD 嚴格來說不是指向提交,而是指向master,master纔是指向提交的,所以,HEAD指向的

原创 facebook更新FastText工程--新增模型壓縮論文的實現模型大小縮減80%--文本分類詞向量fasttext

Facebook 於北京時間2019年6月25日更新FastText代碼,增加了FastText.ZIP:Compressing Text Classification Models論文的模型壓縮實現,論文地址https://arxiv.

原创 Python字典排序

def reverse_rank(id, score): values = list() for i, v in zip(id, score): values.append((i, (np.argmax

原创 python字典轉DataFrame不等長的處理

d = {'A': [1, 2], 'C': [1, 2, 3, 4]} data = pd.DataFrame(d) print(data) 由於列表不等長會報錯: ValueError: arrays must all be sa

原创 輸出tf.SparseTensorValue值-----使用稀疏的離散特徵提高內存利用率

在做推薦算法,採用FM模型時採用tf.sparse_placeholder函數,會比較省內存 一、tf.sparse_placeholder與tf.SparseTensorValue 1.tf.sparse_placeholder支持mu

原创 Word2vec的相關論文和博客收集

一、Word2Vec 作者Tomas Mikolov 的三篇代表作  Word2Vec從提出至今,已經成爲了深度學習在自然語言處理中的基礎部件,大大小小、形形色色的DL模型在表示詞、短語、句子、段落等文本要素時都需要用word2vec來做

原创 windows下python結合spark +java+ pyspark安裝配置

默認你已經安裝好了python一、  Java配置首先去官網http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下載Java