pytorch对text数据的预处理

原創

en跑的换行符

2021-01-26 14:31

pytorch对text数据的预处理

我们需要把文本数据转化为向量从而可以被神经网络处理。在被喂给神经网络之前，我们需要对text文本数据进行预处理。

关于这一块的预处理，其实有一个很高度抽象化的接口torchtext可以很高效的解决问题，但是有些时候不清楚里面怎么运作的心理总是没谱，所以我一般在写代码的时候都是使用人工自己处理代码。

这个人工手动处理流程代码其实各式各样，我大概是写两个版本，之后如果看到不错的，可能还会整理，比如如何处理大数据，不过核心思想是一样的。

大致流程是这样的：

首先：对原始数据（一般是训练数据）进行预处理，进行分词，繁体字转化，半角符号转化

随后：记录各个词汇的词频，过滤低词频词汇，简历Word2index的映射表保存起来，需要注意pad和unk符号

随后：把数据（训练/测试/dev，使用参数进行控制）转化为对应的index，按照最大长度进行补全，并转化为tensor

其次：制造自己的数据集类，改写关键部位，一般是get_item这里，以便被dataloder处理。

转自---pytorch对text数据的预处理-综述

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SGDMA与普通DMA

DMA（Direct memory access，內存直接存取），屬於 Vectored I/O 方式，也是下沉運算的一種實現。區別 Scatter-gather DMA 與 Block DMA（即普通DMA）方式不同， Block D

藍天上的雲℡

2024-05-02 14:21:20

完美替代postman的软件

張博的博客

2024-05-02 14:19:50

mysql 条件查询

https://blog.csdn.net/qq_57005976/article/details/129006241

張博的博客

2024-05-02 14:19:50

用json来存数据的思路. json类型数据库的思路.

2024-04-29,23點33 看看另外一種只用mysql來維護json持續化.然後flask維護一個內存裏面的json來查詢用是不是可行. 每次啓動服務,先把所有mysql中的json字符串,反序列化成一個變量. 每次修改數據,就更新m

張博的博客

2024-05-02 14:19:50

Vue | babel.config.js 配置详解

babel.config.js 1 概述Babel 相當於一箇中介，一邊是用戶，另一邊是瀏覽器。這幾年，JavaScript 發生了很大的變化，許多新特性在很多瀏覽器裏都不支持。Babel 的主要作用就是規避這些問題，可以確保 Java

2024-05-02 14:10:29

Vue项目中main.js、App.vue、import...from...等的作用和意义

https://www.cnblogs.com/webwangjie/p/11471542.html 一、main.js 　 1、 main.js 程序入口文件，初始化vue實例，並引入使用需要的插件和各種公共組件. imp

2024-05-02 14:10:29

Vue .eslintignore

Vue .eslintignore 項目根目錄如果沒有 .eslintignore 文件，需要手動添加即可用法如下指定某文件夾包括裏面的所有文件都忽略 build src/assets 指定某文件夾裏面的指定文件類型都忽略

2024-05-02 14:10:29

Vue mockjs mock.js

https://www.jianshu.com/p/0d6a0bdce55c?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommend

2024-05-02 14:10:29

Vue .gitignore

Vue.js 是一種流行的開源 JavaScript 框架，被廣泛用於構建現代化的 Web 應用程序。Vue.js 用於構建用於數據響應的單頁面應用程序，但是在處理大型項目時可能會出現許多臨時文件和配置文件，這些文件可以使用 .gitig

2024-05-02 14:10:29

vue 项目构建之 jsconfig.json 作用

目錄 vue項目構建之jsconfig.json作用 VScode的配置vue項目構建之jsconfig.json作用由於webpack別名配置好以後，如果想要在vscold中可以正確提示路徑，就需要配置jsconfig

2024-05-02 14:10:29

Vue .eslintrc.js

Vue .eslintrc.js https://blog.csdn.net/weixin_33721344/article/details/88685833 Vue的Eslint配置文件eslintrc.js說明與規則介紹最近

2024-05-02 14:10:29

Vue 生命周期 Vue进阶（三十六）：created() 详解

https://www.bilibili.com/video/BV1ub4y1i78b?p=2 第五章什麼是 vue3 的生命週期 https://www.bilibili.com/video/BV1ua4y1u7N8/ Vu

2024-05-02 14:10:29

Vue .browserslistrc

Vue .browserslistrc 在使用腳手架搭建項目時，會自動生成.browserslistrc文件，該文件只要是配置兼容瀏覽器對於部分配置參數做一些解釋:" >1%" :代表着全球超過1%人使用的瀏覽器“last 2 ve

2024-05-02 14:10:29

前端Vue 启动过程启动流程执行流程

前端Vue 執行流程 Vue的執行流程一般來說，當啓動vue程序時，系統會先調用main.js文件在main.js中，創建了一個新的vue對象並將其掛載到App.vue中id爲app的html組件中在App.js中，引入<

2024-05-02 14:10:29

真实性——简历书写你不得不注意的至上准则

要儘量提供個人簡歷中提到的業績和能力的證明資料，並作爲附件附在個人簡歷的後面。一定要記住是複印件，千萬不要寄原件給招聘單位，以防丟失。一定要用積極的語言，切忌用缺乏自信和消極的語言寫個人簡歷。最好的方法是在心情好的時候編寫個人簡歷。不能憑

2024-05-02 14:04:48

24小時熱門文章

最新文章

最新評論文章