數據分析實戰-Kaggle-Twitter情感識別-基於Spacy的語句提取

原創

2020-05-17 17:06

目錄

一、題目解析

二、開發環境

三、數據分析過程

一、題目解析

英文題目：

"My ridiculous dog is amazing." [sentiment: positive]

With all of the tweets circulating every second it is hard to tell whether the sentiment behind a specific tweet will impact a company, or a person's, brand for being viral (positive), or devastate profit because it strikes a negative tone. Capturing sentiment in language is important in these times where decisions and reactions are created and updated in seconds. But, which words actually lead to the sentiment description? In this competition you will need to pick out the part of the tweet (word or phrase) that reflects the sentiment.

中文解析：其實我一開始沒弄明白這是啥意思，直到看了數據，先給大家看數據吧。

train .csv

test.csv

最後需要提交的東西呢，就是select_text。所以題目的意思就是，根據text（這個是用戶真正發的內容）去提取selected_text，就是提取原文中能代表用戶心情的語句。目的是方便Twitter以後做輿論分析啥的吧，這個咱管不着。下面讓我們開始我們的分析之旅。

二、開發環境

Windows10 + Jupter Notebook（這個選擇也讓我吃了大虧，寫博客的時候沒有辦法直接上傳，只能通過先轉Latex再轉

PDF再轉長圖，我都要死了，垃圾csdn的markdown。）

需要源碼的同學可以在博客下面留言，我直接發。

三、數據分析過程

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

雲效 Pipeline as Code 來了！這些場景，用好它效率翻倍！

從可視化編排到支持 YAML 編排雲效流水線 Flow 是開箱即用的企業級持續集成和持續交付工具，支持豐富的代碼源、構建、自動化測試工具、多種部署類型和部署方式，與阿里雲深度集成，還提供多種企業級特性，助力企業高效完成從開發到上線 CIC

2024-05-11 21:15:05

通義靈碼企業版正式發佈，滿足企業私域知識檢索、數據合規、統一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

用Python寫的udp聊天器

說明在一個電腦中編寫1個程序，有2個功能 1.獲取鍵盤數據，並將其發送給對方 2.接收數據並顯示並且功能數據進行選擇以上的2個功能調用要求實現上述程序參考代碼 import socket def s

2024-05-11 12:30:57

Linux系統中的文件和目錄權限

一、文件屬性下文中，“文件”一詞默認代指廣義的數據類型，跟“目錄”等詞對比使用時，則專指普通文件（File）這一特定數據類型。 Linux系統中，我們可以使用命令“ls -al”來查看當前目錄

2024-05-11 01:45:47

手把手系列！使用 Zilliz Cloud 和 AWS Bedrock 搭建 RAG 應用

檢索增強生成（Retrieval Augemented Generation, RAG）是一種 AI 框架，它通過結合信息檢索和自然語言處理（NLP）能力從而增強文本生成。具體而言，RAG 系統中的語言模型通過一種檢索機制查詢和搜索知識庫

2024-05-10 21:29:43

詳解Python 中可視化數據分析工作流程

本文分享自華爲雲社區《Python 可視化數據分析從數據獲取到洞見發現的全面指南》，作者：檸檬味擁抱。在數據科學和分析的領域中，可視化是一種強大的工具，能夠幫助我們理解數據、發現模式，並得出洞見。Python 提供了豐富的庫和工具，使得可

2024-05-10 11:30:09

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

華爲雲開發者桌面全新發布CodeArts IDE for Python，極致優雅雲原生開發體驗

本文分享自華爲雲社區《華爲雲發佈CodeArts IDE for Python，極致優雅雲原生開發體驗》，作者：華爲雲頭條。近日，華爲雲正式發佈CodeArts IDE for Python，這是一款內置華爲自主創新的Python語

2024-05-08 10:34:25

Python 爬蟲：Spring Boot 反爬蟲的成功案例

前言在當今數字化時代，網絡數據成爲了信息獲取和分析的重要來源之一。然而，隨着網絡數據的廣泛應用，爬蟲技術也逐漸成爲了互聯網行業的熱門話題。爬蟲技術的應用不僅可以幫助企業獲取有價值的信息，還可以用於數據分析、市場研究等領域。然而，隨着爬

2024-05-07 23:26:04

開發者分享：利用 EMQX Cloud 與 ESP32 微控制器實現智能液冷散熱系統

作者：陶德坤，EMQX Cloud 開發者。作爲一名後端開發人員，我經常需要同時運行多個 Jetbrains IDE （集成開發環境），所以經常面臨筆記本電腦過熱問題。我曾嘗試過各種散熱方法，從傳統的風扇到更先進的半導體冷卻系統，但這些

2024-05-07 21:55:53

我們團隊來了一位新同事，主動要求幫忙敲代碼！歡迎 AI 001號

通義靈碼｜7X24的AI智能編程助手工號：AI001 他叫通義靈碼，一個硅基生命。出生在0101星球，沒有性別，但有人格類型。他是INTJ，建築師型人格，艾薩克·牛頓和甘道夫同款。他會寫一點代碼，但不如我們會得多。我看了下他的簡歷，

2024-05-07 21:12:06

頻繁FullGC線上問題排查

一、問題近期頻繁收到關於FullGC的告警二、基礎知識介紹 2.1 Java內存結構目前系統使用的是ParNewGC、CMS垃圾回收，此時的1.8JDK內存模型如下：注意大對象可以直接放到老年代中，可以通過-XX:Pretenur

2024-05-06 23:55:18

我在下載模塊的時候下不下來出現這種情況是什麼意思？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python庫下載失敗的問題。問題如下：我在下載模塊的時候下不下來出現這種情況是什麼意思？二、實現過程這裏【莫生氣】給了一個指導：執行那

2024-05-06 21:49:13

[oeasy]python0015_鍵盤改造_將esc和capslock對調_hjkl_移動_雙手正位

鍵盤改造 🥋 回憶上次內容上次練習了複製粘貼按鍵作用 <kb

2024-05-06 11:45:36

教你用Perl實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用Perl實現Smgp協議》，作者：張儉。引言&協議概述中國電信短消息網關協議（SMGP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message Gateway Pro

2024-05-06 10:32:43

24小時熱門文章

最新文章

最新評論文章