spacy训练模型和更新

原創

2021-01-30 09:36

如何训练

初始化模型权重使其变成随机值：调用nlp.begin_training方法；
查看当前权重的表现：调用nlp.update方法
比较预测结果和真实的标签；
计算如何调整权重来改善预测结果；
微调模型权重；
重复上述步骤；
循环训练：

for i in range(10):
	random.shuffle(TRAINING_DATA)
	for batch in spacy.util.minibatch(TRAINING_DATA):
	texts = [text for text, annoation in batch]
	annotations = [annotation for text, annotation in batch]
	nlp.update(texts, annotations)
nlp.to_disk(path_to_model)

训练一个新的模型：

nlp = spacy.blank("zh")
ner = nlp.create_pipe("ner")
nlp.add_pipe(ner)
ner.add_label("GADGET")
nlp.begin_training()
for itn in range(10):
	random.shuffle(examples)
	for batch in spacy.util.minibatch(examples, size=2):
		texts = [text for text, annoation in batch]
		annotations = [annotation for text, annotation in batch]
		nlp.update(texts, annotations)

模型训练会出现的问题：

将之前的正确预测结果混合进来

TRAINING_DATA = [
("...", {"entities": [(0,1, "WEBSITE")]}),
("...", {"entities": [(0,1, "PERSON")]})
]

模型不能学会所有的东西
选择那些能从本地语境中反映出类别的类型；
更通用的标签要好过更特定的标签；
可以用规则将通用标签转换为特定种类；

LABELS = ["CLOTHING", "BAND"]

手动标注工具：

Brat
Prodigy

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于电商多模态概念知识图谱增强的电商场景图文模型 FashionKLIP

近日，阿里雲機器學習平臺PAI與復旦大學肖仰華教授團隊、阿里巴巴國際貿易事業部ICBU合作在自然語言處理頂級會議ACL2023上發表基於電商多模態概念知識圖譜增強的電商場景圖文模型FashionKLIP。FashionKLIP是一種電商知識

2023-07-12 00:28:17

数据列表文本相似度去重，中文英文都可以

代碼 import spacy from itertools import combinations nlp = spacy.load("zh_core_web_lg") # nlp = spacy.load("en_core_web_m

2023-06-29 00:10:38

spacy3.0 创建新模型

import random import re from pathlib import Path import spacy from spacy.util import minibatch from spacy.trainin

2022-04-30 09:35:39

一份不可多得的数据科学与机器学习Python库

本文全面地介紹了當前市場上適合於數據科學和機器學習的優秀 Python 庫。圖片來自 Pexels 根據當前技術界的廣泛需求，本文將以如下順序重點介紹，市場上適合於數據科學和機器學習實現的優秀 Python 軟件：數據科

2021-01-30 10:58:11

数据分析实战-Kaggle-Twitter情感识别-基于Spacy的语句提取

2020-05-17 17:06:34

spaCy 2.1 中文处理预训练模型

2019-07-28 14:41:13

Maven 插件开发入门

一，快速開發你的第一個插件 1，創建一個maven-plugin目錄，並通過CMD程序從後臺進入此目錄。 2，運行命令： mvn archetype:create -DgroupId=com.test.maven -DartifactI

2024-06-09 13:48:33

Debian 系统初体验

1. Win7安裝debian後，win7的啓動項會被grub覆蓋，解決這個我難題很簡單，改動一下/etc/default/grub文件，然後運行一下update-grub命令，系統就能自動找到win7啓動項並添加了； 2. 安裝Chr

2024-06-09 13:48:32

vue2数据双向绑定Object.defineProperty

var obj = {} var texts = 'hello' let ipt = document.querySelector('#input') let txt = document.querySelector(

2024-06-09 11:36:52

魔兽争霸卡顿解决

玩魔獸爭霸卡頓，症狀：遊戲打開都正常，起始的遊戲都是正常的，但大家開始釋放技能的時候，就卡的像PPT，鼠標都移動不了。已嘗試措施，升級顯卡、安裝所有的VS++版本，啓用獨立顯卡模式，調低應用顯示模式，從win10升級到了win11，但都沒

2024-06-08 23:20:23

BCS2024｜Baidu Comate：以研发提效为驱动实现“安全左移”

2024年6月5日，以“AI驅動安全”爲主題的2024全球數字經濟大會數字安全高層論壇暨北京網絡安全大會戰略峯會（簡稱“BCS大會”）在北京國家會議中心開幕。 BCS2024｜“互聯網創新發展”論壇百度研發安全負責人陳長林出席互聯網創

2024-06-08 09:41:40

爱奇艺公有云对账标准化实践

01 背景雲成本系統化管理公有云作爲基礎架構部核心資源之一，其成本佔比逐年上升，企業對於公有云成本實施精細化管理的需求越來越高。相較於私有化部署主要關注服務器、網設、帶

愛奇藝技術產品團隊

2024-06-08 02:19:16

Puppeteer实战案例：自动化抓取社交媒体上的媒体资源

在當今數字化時代，社交媒體已成爲人們獲取信息、分享生活和進行商業推廣的重要平臺。隨着社交媒體內容的爆炸性增長，自動化抓取社交媒體上的媒體資源變得尤爲重要。本文將介紹如何使用Puppeteer這一強大的自動化工具來實現這一目標。 1. P

2024-06-08 00:06:14

从缺陷到创新：质量保障的新视角

1.背景：最近一段時間研發大佬們在積極的治理告警，經過一段時間的治理，現在告警情況已經有了很大的改觀，但難免還有漏網之魚；具體我們可以以下邊一個例子來看：這是一個生產的UMP告警，通過這個告警我們發現XXX這個應用的堆內存使用率

2024-06-07 23:55:01

CI+GPT双引擎驱动，开启AI代码评审新纪元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一

京東雲開發者

2024-06-07 23:54:54

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章