python 多进程jieba分词，高效分词，multiprocessing

原創

高颜值的杀生丸

2023-05-12 13:07

自然语言任务经常使用jieba分词，数据量大时怎么加速，jieba分词不支持使用asyncio异步加速，使用multiprocessing还是可以的

import jieba
import jieba.analyse
import multiprocessing

# 加载自定义词典
jieba.load_userdict("user_dic.txt")
jieba.load_userdict("cate_group.txt")
jieba.analyse.set_stop_words('stopwords_v1.txt')

def process_text(text):
    # 分词
    words = jieba.cut(text, cut_all=True)
    
    # 过滤长度小于2或大于10的词和纯数字的词
    filtered_words = [w for w in words if len(w) >= 2 and len(w) <= 10 and not w.isdigit()]
    
    # 返回分词结果
    return filtered_words


# 创建进程池
pool = multiprocessing.Pool()

# 处理文本列表
# texts = ["这是一段测试文本", "这是另一段测试文本"]
texts = data["new_text"]
results = pool.map(process_text, texts)

# 输出结果
results

　　

结果：

[['估值', '有待', '修复', '煤炭', '平均', '市盈率', '美元'],
 ['国产',
  '医疗',
  '医疗器械',
  '器械',
  '行业',
  '发展',
  '迅速',
  '作为',
  '国内',
  '最大',
  '医疗',
  '医疗器械',
  '器械',
  '企业',
  '基本',
  '一枝',
  '一枝独秀',
  '独秀'],
 ['今日', '上海', '现货'],
 ['消息', '准备'],

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

salesforce零基础学习（一百三十九）Admin篇之Begins/Contains/Starts With 是否区分大小写

本篇參考： https://help.salesforce.com/s/articleView?id=sf.customize_functions_begins.htm&type=5 https://help.salesforce.com/

2024-05-23 14:32:02

freebsd、openbsd、netbsd的区别

開源BSD有三大系列：freebsd、openbsd、netbsd。其實Mac OS X也是BSD系列，只不過是商業。 1.FreeBSD FreeBSD是從386BSD的基礎上發展起來的，而386BSD是由伯克利的計算機科學家Bill

2024-05-23 14:31:31

【dubbo】telnet 连接dubbo不支持ls命令解决方法

現象 dubbo服務的默認端口是20880，按照網上教程想查看dubbo服務，報錯 telnet 127.0.0.1 20880 dubbo>lsDubbo Telnet Unsupported command: ls 原因 Pleas

金大鑫要堅持

2024-05-23 14:29:51

微服务实践k8s&dapr开发部署实验（1）服务调用

前置條件安裝docker與dapr: 手把手教你學Dapr - 3. 使用Dapr運行第一個.Net程序安裝k8s dapr 自託管模式運行新建一個webapi無權限項目 launchSettings.json中applica

2024-05-23 14:28:01

2018 年上半年数据库系统工程师考试

基礎知識 ● 計算機運行過程中，遇到突發事件，要求 CPU 暫時停止正在運行的程序，轉去爲突發事件服務，服務完畢，再自動返回原程序繼續執行，這個過程稱爲__(1)，其處理過程中保存現場的目的是(2)__。（1）A.阻塞 B.中斷 C.動態

2024-05-23 14:27:10

2020年上半年数据库系统工程师考试

基礎知識 ● 下列屬於 CPU 中算術邏輯單元的部件是（1）。（1）A、程序計數器 B、加法器 C、指令寄存器 D、指令譯碼器參考答案：（1）B ● 在 CPU 和主存之間設置

2024-05-23 14:27:10

2019 年上半年数据库系统工程师考试

基礎知識 ● 計算機執行程序時，CPU中（1）的內容是一條指令的地址。（1）A、運算器 B、控制器 C、程序計數器 D、通用寄存器參考答案：（1）C ● DMA控制方式是在（2）之間直接建立數據通路進行數據的交換處理。（2）A、CPU

2024-05-23 14:27:10

Flink双流Join

Flink雙流Join分爲window join、internal join、connect、維表廣播等方法,其中window join又分爲Tumbling Window Join、Sliding Window Join、Sessi

人不瘋狂枉一生

2024-05-23 14:25:50

.NET快速实现网页数据抓取

前言今天我們來講講如何使用.NET開源（MIT License）的輕量、靈活、高性能、跨平臺的分佈式網絡爬蟲框架DotnetSpider來快速實現網頁數據抓取功能。注意：爲了自身安全請在國家法律允許範圍內開發網頁爬蟲功能。網頁數據

2024-05-23 14:25:17

解密Prompt系列29. LLM Agent之真实世界海量API解决方案：ToolLLM & AnyTool

很早之前我們就聊過ToolFormer，Gorilla這類API調用的Agent範式，這一章我們針對真實世界中工具調用的以下幾個問題，介紹微調(ToolLLM)和prompt(AnyTool)兩種方案。真實世界的API數量龐大且多樣：之

風雨中的小七

2024-05-23 14:25:10

第五节：基于Canal实现MySQL到Redis缓存数据同步

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-23 14:24:29

微服务下认证授权框架的探讨

前言市面上關於認證授權的框架已經比較豐富了,大都是關於單體應用的認證授權,在分佈式架構下,使用比較多的方案是--<應用網關>,網關裏集中認證,將認證通過的請求再轉發給代理的服務,這種中心化的方式並不適用於微服務,這裏討論另一種方案--<認

2024-05-23 14:23:09

python读取 json文件的方法

import json with open ('ocr結構化輸出/10000.json') as f: #調用的高精度騰旭ocr tmp=f.read() tengxunjieguo=json.loads(tmp) 別使用js

張博的博客

2024-05-23 14:22:49

nodejs在typescript项目中申明全局变量

這樣做的目的是避免循環引用，編寫多餘的類型文件 //global.d.ts import type { A } from "./a"; import type { B } from "./b"; declare global {

2024-05-23 14:19:09

一对多的时候,用逗号分隔,存id,还是建表存id

在數據庫設計中，處理一對多關係時，是否使用逗號分隔的ID列表（也稱爲“序列化”或“規範化不足”的方法）或創建一個新的關聯表來存儲這些ID，是一個常見的決策點。以下是兩種方法的比較和考慮因素： 1. 使用逗號分隔的ID列表優點：簡單易

2024-05-23 14:18:19

24小時熱門文章

最新文章

最新評論文章