自然语言处理学习 nltk----分词

原創

2020-04-22 09:49

1. nltk.word_tokenize ( text ) : 直接的分词，比如：“ isn't ” 被分割为 " is " 和 “ n't ”

2. WordPunctTokenizer ( ) : 单词标点分割，比如：“ isn't ”被分割为" isn ", " ' " 和 " t "

注意WordPunctTokenizer ( )的用法。

3. TreebankWordTokenizer ( 宾夕法尼亚州立大学 Treebank 单词分割器）：比如：" isn't "被分割为" is " 和 " n't "

4. WhitespaceTokenizer() : 空格符号分割，就是split(' ')最简单的一个整体，没有被分割

5. PunktWordTokenizer() :

这个有问题，emmmm，还没解决，先留个坑吧

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型安全｜RAG精确应对大模型敏感问题知识幻觉难题

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現了幻覺的問題。

2024-06-07 21:41:51

技术实践 | RAG精确应对大模型敏感问题知识幻觉难题

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現

2024-06-07 21:41:50

大模型在推荐系统中的精准推荐策略与实践

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比较

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

盘点一个Pandas数据分组的问题

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【上海新年人】問了一個Pandas數據分組的問題，問題如下： list1 = '電子稅票號碼徵收稅務機關社保經辦機構單位編號費種徵收品目徵收子目費款所屬

2024-06-07 10:02:02

sublime text4 定制记录

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:07

sublime text定制

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:04

无需搭建环境，零门槛带你体验Open-Sora文生视频应用

本文分享自華爲雲社區《Open-Sora 文生視頻原來在AI Gallery上也能體驗了》，作者：碼上開花_Lancer。體驗鏈接：Open-Sora 文生視頻案例體驗不久前，OpenAI Sora 憑藉其驚人的視頻生成效果迅速走紅，在

2024-06-06 10:56:52

有没有python在flask框架下开发的实际案例？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【進擊的python】問了一個Python web開發的問題，問題如下：各位大佬，有沒有python在flask框架下開發的實際案例？？？求分享二、實現過程 git

2024-06-06 10:01:59

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

繼續運行 ?* 回憶上次內容上次使用shell環境中的命令命令作用 c

2024-06-05 12:31:14

Python网络爬虫要清理cookies 才能再爬，有啥解决方法嘛？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【大寫一個Y】問了一個Python基網絡爬蟲的問題，問題如下：大佬們請教個問題我做了個在某眼查抓地址數據的爬蟲，程序中做了隨機2-5秒的循環延時，現在大概爬8

2024-06-05 10:02:06

自动化Reddit图片收集：Python爬虫技巧

引言 Reddit，作爲一個全球性的社交平臺，擁有海量的用戶生成內容，其中包括大量的圖片資源。對於數據科學家、市場研究人員或任何需要大量圖片資源的人來說，自動化地從Reddit收集圖片是一個極具價值的技能。本文將詳細介紹如何使用Pyth

2024-06-05 00:06:19

什么是LLM大模型训练，详解Transformer结构模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

直播预告｜手把手教你玩转 Milvus Lite ！

Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由 Zilliz 基於全球最受歡迎的開源向量數據庫 Milvus（ht

2024-06-03 21:25:13

重磅推出：Milvus Lite 正式上线，几秒内即可轻松搭建 GenAI 应用

和超薄筆記本一樣輕便、強大的 Milvus Lite 正式上線！ Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由

2024-06-02 02:22:45

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章