結巴分詞詞頻統計排序

原創

2018-09-02 01:55

import jieba
import numpy as np
import pandas as pd

data=open("D:/data.txt").readlines()
def processs(data):
    m1=map(lambda s:s.strip("\n"),data)
    cut_words=map(lambda s:list(jieba.cut(s)),m1)
    return list(cut_words)

cut_words=processs(data)

total_words=[]
for each in cut_words:
    total_words.extend(each)

n=np.unique(total_words,return_counts=True)
s=pd.Series(data=n[1],index=n[0])
result=s.sort_values(ascending=False)
print(result)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

NLP分詞和在線分詞大總結

2020-05-26 14:46:12

文分詞 mmseg4j

文分詞 mmseg4j 博客分類： mmseg4jSolrPython算法rmmseglucene 使用 paoding 的配置覺得有點複雜，而且管理詞庫也有點不方便，同時自己也想了解下中文分詞算法，然後就想自己寫個中文分詞器，在luce

初入Cplusplus

2020-06-29 14:28:59

NLP自然語言處理（二）—— 語料及詞性標註 & 分詞 & TF-IDF

通常，NLP無法一下子處理完整的段落或句子，因此，第一步往往是分句和分詞分詞的話，對於英語句子，可以使用NLTK中的word_tokenize函數，對於中文句子，則可使用jieba模塊語料及詞性標註詞性標註就是給每個詞打上詞類

2020-06-28 11:00:23

分詞之逆向最大匹配法

完整的代碼和資料見 github:zlhcsm 知識普及：反向最大匹配法的基本原理與正向最大匹配法類似，只是分詞順序變爲從右至左。步驟 1，一般從一個字符串的結束位置，選擇一個最大長度的詞長的片段，如果序列不足最大詞長，則

自由的小白

2020-06-21 05:34:19

自然語言處理（NLP）：22 BERT中文命名實體識別

本文主要通過不同的數據集來進行 NER 模型驗證驗證，以及指定一些通過訓練 NER 任務的一套標準，通過兩條路線進行分析和總結。（1）工業界場景-> 學術界 NER 論文-> BERT 實現 NER 方案以及源碼分析（2）預

2020-06-20 19:19:32

Java_ABC_8.mmseg導入Solr

1. mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )實現的中文分詞器，並實現 lucene 的 analyzer 和 solr 的Toke

2020-06-17 09:11:04

結巴(jieba)中文分詞的.NET版本（一）

學習路徑： https://github.com/anderscui/jieba.NET/ 特點支持三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不

2020-06-16 06:15:21

結巴分詞1.8.2版本源代碼解析(一)

概要說明：結巴分詞是基於python的開源分詞工具。在其根目錄下的結構爲 . |--analyse |--finalseg |--posseg |-

2020-06-09 12:22:45

Hanlp得到語義相似度的方法

import com.hankcs.hanlp.dictionary.CoreSynonymDictionary; public static Double SemanticDistance(String str1,String

超级大超越

2020-06-08 06:46:25

使用Hanlp

超级大超越

2020-06-08 06:46:14

Spark+Ansj中文分詞Scala程序

2020-06-03 08:21:24

TIP-LAS 藏語分詞工具使用

2020-06-03 06:50:52

ElasticSearch 使用filter時不對查詢關鍵字做分分詞，而query會。

2020-05-17 09:54:25

Elasticsearch核心技術與實戰學習筆記第三章 13使用分析器進行分詞

2020-05-14 14:45:57

Python 結巴分詞——自然語言處理之中文分詞器

2020-05-11 15:21:23

24小時熱門文章

最新文章

最新評論文章