英文分詞處理

純粹的文本我們也叫作語料
文本數據特點:
非結構化
海量數據
高維稀疏性
語義/情感

一句話裏面有多少個詞就有多少個維度
文本的分析就是他所包含的語義
往往都存在一個傾向性

自然語言處理-NLP
機器翻譯
自動摘要(當我們在做輿情分析的時候,找到一個文章,能不能自動生成一個文本的摘要)
文本分類(根據文本的關鍵詞進行文本的分類,在自然語言中有一個實體命名,時間,地點等)
信息檢索(通過詞相互之間的練習檢索到要的內容,既包括詳細)
信息抽取
自動問答(聊天機器人,自然語言的先進)
情感分析(對文本進行情感分析,正向,逆向)

文本挖掘在媒體的應用
詞頻分析
關鍵詞抽取
語義網
文本分類
情感分析
主題模型

對於中文的分詞
分詞:是將由連續字符組成的語句按照一定規則劃分成一個一個獨立詞語的過程
中文不想英語那樣有空格,沒有分詞
首先一步,能否做到有效的中文分詞。

對於英文的自然語言的處理

knime
knime.org
提交e-mail地址
64內的,加上所有的擴展。要不然沒有英文處理的模塊
這款軟件有很多的案例,有非常多的數據挖掘的案例,找到對英文處理的案例的方式
還有操作的節點

四個特點:
1.開源軟件
2.有豐富的案例
3.原生是java,也支持r語言
4.開源,有豐富的labs實驗。
在這裏插入圖片描述
在這裏插入圖片描述
有一百五十篇文章,同時下面是鼠癌。兩篇文章疊加在一起,我們想做一個文檔文類,根據兩種已知的艾滋病額分類,建立一個模型,分類是艾滋病還是鼠癌
首先把標點符號給刪掉了。所有的標點符號去掉,還可以把所有字母改爲小寫,還有一個重要特徵,停用詞列表。
還有一個work working worked,所以當我們把work ed,ing去掉就變爲我們的work.對於英文的處理可以進行。
英文的處理,英文的過程還是相對簡單的,我們通過執行,就可以立刻看到,把一個document 切割成了我們看到的詞,如果在document中出現了這個詞,出現了就是1不出現了就是0,對於這種叫做熱編碼。之後我們把兩列複製上去。之後我們再弄成編碼閒置。出現了就是1,不出現就是0.最後標記。

首先我們把文檔拆分70訓練文章,30測試文章。
decetrasy
當百分之70進到這裏面,生成的模型在進行訓練。在底下我們選擇了下面的選擇性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章