第八屆泰迪杯C題

國賽三等獎,廣東省二等獎

智慧政務”中的文本挖掘應用

 

摘要

 

    在這個信息時代,以怎樣的方式去了解民意、彙集民智、凝聚民氣是城市政府以及相關工作部門日益關心的重大問題之一。但隨着各類社情相關的文本數據量的不斷攀升,以人工的方式對羣衆的留言進行分類以及對熱點問題的整理往往存在工作效率低下的問題。因此,本文將基於數據挖掘技術對“智慧政務“中的文本即羣衆的留言數、羣衆關心的熱點問題、以及相關工作部門的解決方案數據進行內在信息的挖掘與分析。

   首先,在本次數據挖掘過程中,我們首先對獲取得到的留言數據利用基於Python的fastText原理對數據預處理、分詞以及停用過濾操作,實現對留言數據的分類,並提升了可建模度,並使用F-Score對訓練模型進行評價,經過不斷的訓練,最終得到評價值約爲0.8835。

    其次,對熱點問題的挖掘,我們首先對留言語料進行文本預處理,使用TF-IDF方法進行分詞及去除停用詞操作,用歐氏距離來得到相似的度量報道與話題的相關性,最後通過文本聚類k-means算法,把相似的高的留言加到對應的話題簇中,得到了話題簇,因此得到了排名前5的熱點問題和相應熱點問題對應的留言信息。

    最後,問題3主要從答覆意見文本的相關性、完整性和可解性、時效性和信息量等角度出發,來建立相關工作部門對留言答覆意見質量的評價指標。本文運用預先相似度計算方法來計算留言主題與相關工作部門的答覆意見之間的相似度, 用自動化可讀性指數ARI來表示可解釋性,ARI的計算公式爲:API=4.71*(總字符數/總字數)+0.5*(總字數/總句數)-21.43。基於主成分分析之權值計算方法,算出爲接下來即將要構建的評價模型中各個評價指標的權重。其中相關性、可解釋性、實效性和信息量分別所佔的權重爲0.26、0.28、0.18、0.28,最後得到答覆意見質量評價模型爲 Q=0.28Words+0.26Relevancy+0.28Credibility+0.18Timeliness+0.01。

 

 

 

關鍵詞:自然語言、fastText原理、n-gram特徵、F-Score評價、k-means算法、歐氏距離、TD-IDF方法,廣義線性迴歸

 

Question C: Text Mining Application in "Smart Government Affairs"

 

Abstract

       In this information age, how to understand public opinion, gather people's wisdom, and gather people's popularity is one of the major issues that the city government and related work departments are increasingly concerned about. However, as the amount of text data related to various social conditions continues to rise, there is often a problem of low work efficiency in manually categorizing the masses' messages and sorting out hot issues. Therefore, based on the data mining technology, this article will mine and analyze the intrinsic information of the text in the "smart government affairs", that is, the number of messages of the masses, the hot issues that the masses care about, and the solution data of the relevant work departments.

       First of all, in this data mining process, we first use the Python-based fastText principle to preprocess the data, segment the words, and disable the filtering operation on the obtained message data, classify the message data, and improve the modelability And use F-Score to evaluate the training model. After continuous training, the final evaluation value is about 0.8835.

Secondly, for the mining of hot issues, we first perform text preprocessing on the message corpus, use the TF-IDF method to perform word segmentation and remove stop words, and use Euclidean distance to obtain similar measurement reports and topic relevance, and finally pass The text clustering k-means algorithm adds similar high messages to the corresponding topic clusters to obtain topic clusters. Therefore, the top 5 hotspot questions and the message information corresponding to the corresponding hotspot questions are obtained.

       Finally, from the perspective of the relevance, completeness and solvability, timeliness and amount of information of the reply opinion text, to establish related work The evaluation index of the quality of the department's response to the message. This article uses the pre-similarity calculation method to calculate the similarity between the subject of the message and the reply of the relevant work department, and uses the automated readability index ARI to indicate the interpretability. The calculation formula of ARI is: API = 4.71 * Number / Total Words) + 0.5 * (Total Words / Total Sentences) -21.43. Based on the weight calculation method of principal component analysis, the weight of each evaluation index in the evaluation model to be constructed next is calculated. Among them, the weights of relevance, interpretability, effectiveness and amount of information are 0.26, 0.28, 0.18 and 0.28 respectively, and the quality evaluation model of the final opinion is Q = 0.28Words + 0.26Relevancy + 0.28Credibility + 0.18Timeliness + 0.01 .

 

Keywords: natural language, fastText principle, n-gram features, F-Score evaluation, k-means algorithm, Euclidean distance, TD-IDF method, generalized linear regression

evaluation, k-means algorithm, Euclidean distance, TD-IDF method, generalized linear regression

 

 

 

 

 

 

 

 

 

 

 

 

 

目錄

1 引言... 1

1.1研究背景... 1

2 挖掘目標... 1

3 模型構建過程及結果分析... 2

3.1 問題1分析方法與過程... 2

3.1.1 流程圖... 2

3.1.2 數據預處理... 2

3.1.3 留言文本分詞... 2

3.1.4停用過濾詞... 4

3.1.5 方法實現過程... 5

3.2 問題2方法與過程... 10

3.2.1問題分析:... 10

3.2.2 話題發現基本流程圖... 10

3.2.3 文本預處理... 11

3.2.4 留言信息特徵提取... 12

3.2.5 話題的表示模型... 13

3.2.6 熱值計算... 15

3.2.7 文本聚類話題提取... 16

3.3 問題3方法與過程... 17

3.3.1 問題分析... 17

3.3.2 預處理... 18

3.3.3 指標提取... 19

3.3.6 構建答覆意見質量評價指標體系... 25

4 結論... 26

參考文獻... 27

附錄... 28

 

 

1 引言

1.1研究背景

自然語言構成的文本中往往包含了豐富的信息,但是這些自然語言描述的信息是提供給人閱讀理解,計算機無法組織裏面的有效信息加以利用。一般的解決辦法是人工直接從文本中提取信息,或者利用計算機程序通過自然語言特徵抽取特定信息。如何讓計算機更好的自動抽取文本信息成爲急需解決的問題。中文文本信息抽取成爲自然語言處理及文本挖掘領域的一個研究熱點。

文本信息抽取主要分爲實體抽取、實體關係抽取等部分,目前大多采用機器學習,尤其是基於概率統計的機器學習方法來解決這些問題。主要分爲有指導(Supervised)和弱指導(Weakly Supervise)的學習方法。大多數自然語言處理問題面對的是一般領域語料,大多采用有指導的學習方法,需要費時費力的標註訓練集,訓練集的優劣直接決定了最終學習模型的好壞。然而信息抽取任務針對的往往是特殊領域語料,基於一般領域語料所總結出的抽取內容往往不能很好解決特殊領域問題。所以需要利用機器學習方法快速構建特殊領域文本信息抽取系統。

本文針對羣衆留言分類、熱點留言以及相關部門回覆方案評價問題實現了該方法,與直接通過模板提取信息相比,本文提出的方法大大提高了準確率召回率,以及減少了大量人工干預,建立模板的工作工作量。並且具有很好的擴展性,可以做到迅速構建系統應對新的中文文本抽取任務。

 

2 挖掘目標

本次的建模的目標是利用來自互聯網公開來源的羣衆問政留言記錄,及相關部門對部分羣衆留言的答覆意見,採用fastText原理對文本信息進行分類,並通過不斷的訓練模型,調節相關參數,最終使得將不同的留言換分到不同的工作管理類別中,提高相關工作部門工作的效率。

對文本進行基本的機械預處理、中文分詞、停用詞過濾後、建立話題簇,對熱點問題進行歸類,得出當前的熱點信息,以便相關部門針對性地解決實時問題,提高人民幸福指數。

實現對文本數據的傾向性判斷以及所隱藏的信息的挖掘並分析,以期望得到有價值的內在內容。

3 模型構建過程及結果分析

3.1 問題1分析方法與過程

3.1.1 流程圖

 

 

 

3.1.2 數據預處理

3.1.2.2 機械壓縮取詞

由於羣衆留言信息數據中,有些數據質量可能存在參差不齊、沒有意義的情況

  3.1.3 留言文本分詞

     在中文中,只有字、句和段落能夠通過明顯的分界符進行簡單的化界,而對於“詞”和“詞組”來說,它們的邊界模糊,沒有一個形式上的分節符。因此,進行文本挖掘時,首先對文本分詞,即將連續的字符按照一定的規範重新組合成詞序列的過程。

    問題1使用Jieba方法對留言文本分詞,基於Jieba分詞包,其運用了數據結構裏的trie(前綴數或字典樹),能夠對詞語進行高效的分類。Trie的原理如圖2所示:

 

如上圖2所示,比如我們有Johiny、Jor、Jany和Jack四個名字,假設我們要讓計算機查找名字Jack是否存在,則trie會從上至下的搜索、每一次判定一個字母、如果某個特定的節點(node)的下一個節點(child node)不在符合搜索壓迫求,那麼搜索就會停止,從而使得效率大大的提高。

    與此同時,在文本信息中,僅僅以trie原理進行分詞會避免不了雙重理解詞語結合的情況,於是trie與有向無環圖(DAG)的結合運用,可以高效的解決這個問題,其運用原理舉例如圖3所示:

     通過設定,計算機自動識別出了兩種分詞方法,分別是‘有/意見/分歧/’和‘有意/見/分歧’。

    由於使用tire與有向無環圖結合原理對文本進行分詞,結果爲一個句子有多種分詞方式。對比於Jieba分詞細分的三種模式,分別爲:精確模式、全模式和搜索引擎模式,我們經過不斷的測試和訓練和結合我們留言文本內容,最後選擇使得這個句子出現概率最大的切分組合。對於留言文本內容分詞後,Jieba的精確模式對留言文本進行分詞的效果最佳。 最終我們對留言文本分詞的部分結果如圖4所示:

 

 

圖4 留言文本分詞結果

 

3.1.4停用過濾詞

經過中文分詞這一步驟,將初始的文本處理成爲詞的集合,即d=μ1;u2;,…,un,其中n爲文本d中出現詞語的個數。但是文本中含有對文本含義表達無意義的詞語,這些詞的存在及其普遍,且記錄這些詞在每一個文檔中的數量需要很大的磁盤空間,比如文本中的一些副詞、語氣詞以及一些無實際含義的實詞,應進行刪除,以消除它們對文本挖掘工作的不良影響。

對於虛詞,比如文本中的“了”、“啊”、“無論”、“比如”等,特殊符號如“#”、“γ”、“μ”、“φ”等,英文中的“is”、“are”、“the”、“that”等。於此同時,由於在不同文本的應用中,構建的停用詞表對文本數據分類的精確度以及維度有着不同程度的影響。
因此我們結和中文分詞所分出的詞的集合進行人工選取擬定停用此表,我們選取分類詞頻中前200的詞,再通過統計這些分類在其他分類中出現的情況,即一個分詞詞頻在各個類標籤中出現詞頻是200,且該分詞在超過四個類中同時出現,我們則將此定義爲停用詞,具體停用此表詳見附錄一
使用停用詞表的效果示例如下:
    原始留言:關於預防先天缺陷的建議
結果:預防 先天 缺陷 建議

3.1.5 方法實現過程

3.1.5.1 n-gram特徵

在文本特徵提取中,常常能看到n-gram的身影。它是一種基於語言模型的算法,基本思想是將文本內容按照字節順序進行大小爲N的滑動窗口操作,最終形成長度爲N的字節片段序列。在本文問題1中,我們經過對數據的不斷測試之後,得到的真是效果和時間空間的開銷權衡之後,得出2-gram模型最適用且最爲合理,即假設我們有有m個詞組成的序列(或者說一個句子),根據鏈式規則,可得到整句的概率P(ω1,ω2,…,ω3),即

 

此時由於n=2,因此所構建的二元模型(bigram model)爲:

比如任意選取羣衆問政留言數據中某一條分析如下:

A市何時能實現冬季集中供暖

相應的bigram的特徵爲:A市 市何 何時 時能 能實 實現 現冬 冬季 季集 集中 中供 供暖

相應的trigram特徵爲:A市何 市何時 何時能 時能實 能實現 實現冬 現冬季 冬季集 集中供 中供暖

經過以上分詞和特徵提取步驟,最終得到留言文本部分詞頻數據如圖5所示:

圖5 分詞頻數統計結果

 

3.1.5.2 Softmax迴歸

Softmax迴歸(Softmax Regression)又被稱作多項邏輯迴歸(multinomial logistic regression),它是邏輯迴歸在處理多類別任務上的推廣。

在邏輯迴歸中,我們有m個被標註的文本:x(1),y(1).. .x(m),y(m),其中,x(i)Rn。由於類標是二元的,所以我們有y(i){0,1},我們假設(hypothesis)有如下形式:hθx=11+e-θTx代價函數(cost function)如下:

其中1{••}是指示函數,即1{true}=1,1{false}=0

在Softmax迴歸中,類標是大於2的,因此我們的訓練集x(1),y(1)...x(m),y(m)中,。y(i)1,2,…,K。給定一個測試輸入x,我們輸入一個K維的向量,向量內每個元素的值表示x屬於當前類別的概率。

    在標準的Softmax迴歸中,由於要計算y=j時Softmax的概率:Py=j),因此需要對所有的K個概率做歸一化。於是使用Softmax分層示例如圖6所示:

 

圖6 Softmax分層示例

   

 

3.1.5.3 fastText模型構

7  fastText模型構架

 

fastText模型有三層:輸入層、隱含層、輸出層。

輸入層: 輸入層輸入的是一批文檔,每個文檔由一個詞彙索引序列構成。例如在處理問題1時,[10 30 80 1000] 可表示“A市 漁業路 灑水車 擾民”這個短文本,其中“A市”、“漁民路”、“灑水車”、“擾民”在詞彙表中的索引分別是10、30、80、1000;

隱含層:隱含層對一個文檔中的所有文本信息的向量進行疊加平均;

輸出層:輸出的是一個特定的target;

在輸出時,fastText採用了Softmax很大程度上降低了模型訓練的時間。

模型搭建遵循以下步驟:

fastText的代碼結構以及各模塊的功能如圖8所示:(代碼詳見附錄二)

圖8 fastText代碼結構圖

 

訓練數據格式一行爲一個句子,每個詞用空格分隔,如果一個詞帶有前綴“__label__”,那,那麼它就作爲一個類標籤,在文本分類時使用。於此同時,經過對數據選取以及對模型參數的不斷調節並加以訓練,最終得到文本分類的最佳模型,並使用F-Score對分類模型進行評價,最終評價值約爲:0.8835

其中,F-Score評價公式爲:

 

 

其中,Pi爲第i類的查準率,Ri爲第i類的查全率。

使用fastText分類結果以及F1值結果如表1所示:

 

表1  留言分類結果

 

 

P

R

F

勞動和社會障

0.937500

0.937500

0.937500

交通運輸

0.900000

0.725806

0.803571

城鄉建設

0.829268

0.880829

0.854271

衛生計生

0.964286

0.830769

0.892562

教育文體

0.891026

0.932886

0.911475

商貿旅遊

0.812500

0.873950

0.842105

環境保護

0.972973

0.915254

0.943231

         

 

 

 

3.2 問題2方法與過程

3.2.1問題分析:

對於話題熱度影響指標,在傳統的話題中大部分是考慮了新聞的標題、正文等文本信息特徵。然而,對於網絡留言是有用戶的參與,如評論、點贊等。針對新聞報道數據來說,首先,一個話題參與的人數越多,即該話題是人們關注並且討論較多的,說明該話題在當前時間的是受人們關注的。其次,每個熱門話題都經歷一個生命週期,即每個話題的“熱度”是在給定一段時間內發展的。因此,話題參與人數、點贊人數、反對人數、留言持續時間等可作爲話題熱度的一個影響指標,體現了用戶的參與程度。

總之,再留言數據的背景下,一個“熱點”話題具備以下的特點:

  1. 它有較強的持續性,即被定義爲一段時間內多次被人們提及到的事件。
  2. 它的受歡迎程度(即熱度)是隨時間變化的。
  3. 它受人們關注度較高,對於此人們會有較多的贊成或是反對的聲音。

3.2.2 話題發現基本流程圖

 

 

 

 

 

 

從圖10中可知,留言話題發現從文本預處理到文本聚類共有五個主要步驟。首先留言數據公開已知,然後將所得的數據保存到奧文本語料庫中;其次,對留言語料進行文本預處理,使用TF-IDF方法進行分詞及去除停用詞操作,並從預處理後的文本數據中提取特徵此項建立文本表示模型;然後,用相似的度量報道與話題的相關性;最後通過文本聚類算法,把相似的高的留言加到對應的話題簇中,這樣就得到了話題簇。

3.2.3 文本預處理

3.2.3.1 留言文本分詞

同樣的,我們使用問題1中的Jieba之精度確認模式對留言文本數據進行分詞,然後構造通用詞去除沒有實際意義的詞語。具體操作流程已經在問題1中進行詳細描述,在此處不在重述。

最終得到留言分詞結果如圖11所示:

 

 

圖11 留言分詞結果

使用停用詞,去掉留言文本中的虛詞即副詞、語氣詞等與無實際意義的詞後,得到部分結果如圖12所示:

圖12 留言文本去停用詞結果

 

3.2.4 留言信息特徵提取

 本文采用向量空間模型表示留言文本信息。將一個留言文本數據d表示n維向量,即d=t1,w1;t2,w2;…;ti,wi;…;tn,wn;,其中:nd中的特徵總數,ti(1<i<n)d中對應的權重值,表示它在d中重要的程度。

本文用TD-IDF計算特徵詞項權重,具體操作如下:

該操作的主要目的有兩個,第一,爲了提高程序的效率,提高運行速度;第二,所有詞彙對文本分類的意義是不同,一些通用的、各個類別都普遍存在的詞彙對分類的貢獻小,爲了提高精度,對於每一類應去除那些表現力不強的詞彙,篩選出針對該類的特徵項集合,採用了TFIDF方法來進行特徵選擇。該方法所用的主要公式如下所示,

TD-IDF的計算:

以及基於TF-IDF算法對留言文本進行分詞以及關鍵字的提取,其中經過分詞後統計詞頻所用的計算原理如下:

假設文檔集合

其中,TF(term frequency,TF):詞頻,某個給定詞語在該文件中出現的次數,計算公式爲:

 

IDF(inverse document frequency,IDF):逆文件頻率,如果半酣詞條的文件越少,則說明詞條具有很好的類別區分能力,計算公式爲:

 

 

根據上面的計算我們可以算出文件,單詞條w的TD-IDF權值W[i][j]= TD(j)*IDF(j)。其中i爲文件集合T中的一個文件,而j是文件集合T中的一個單詞。

通過對文件集合T的計算我們可以得到二維數組(矩陣)W[i][j].最終得到的特徵此項如附錄二,部分詞項如圖13所示:

圖13 提取詞項關鍵詞

   

3.2.5 話題的表示模型

3.2.5.1 k-means聚類算法

對於留言文本語料進行話題發現時,我們無法預測會有多少個留言話題,以及何時又出現新的話題。因此,這個領域研究也等同於對無監督、無指導的聚類算法分析。聚類算法就是無監督的機械學習方法,將數據集劃分爲不同的類簇。將每個族看成是一個話題, 然後運用k-means聚類方法採用距離作爲相似性的評價指標,即認爲兩個對象的距離越近,其相似度就越大。該算法認爲簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作爲最終目標。其中,k個聚類具有以下特點:各聚類本身儘可能的緊湊,而各聚類之間儘可能的分開。

3.2.5.2 k-means聚類的迭代過程:

1.隨機選取k個文件生成k個聚類cluster,k個文件分別對應這k個聚類的聚類中心Mean(cluster) = k ;對應的操作爲從W[i][j]中0~i的範圍內選k行(每一行代表一個樣本),分別生成k個聚類,並使得聚類的中心mean爲該行。

2.對W[i][j]的每一行,分別計算它們與k個聚類中心的距離(通過歐氏距離)distance(i,k)。

3.對W[i][j]的每一行,分別計算它們最近的一個聚類中心的n(i) = ki。

4.判斷W[i][j]的每一行所代表的樣本是否屬於聚類,若所有樣本最近的n(i)聚類就是它們的目前所屬的聚類則結束迭代,否則進行下一步。

5.根據n(i) ,將樣本i加入到聚類k中,重新計算計算每個聚類中心(去聚類中各個樣本的平均值),調到第2步。

 

3.2.5.3 中心點的選擇

    k-means算法的能夠保證收斂,但不能保證收斂於全局最優點,當初始中心點選取不好時,只能達到局部最優點,整個聚類的效果也會比較差。我們採用以下方法來確定k-means中心點:

  1. 選擇彼此距離儘可能遠的那些點作爲中心點,對於sklearn中:

Km=KMeans(init=’k-means++’)

  1. 先採用層次進行初步聚類輸出k個簇,以簇的中心點的作爲k-means的中心點的輸入。Km=KMeans(init=’random’)
  2. 多次隨機選擇中心點訓練k-means,選擇效果最好的聚類效果

3.2.3.3 K值的選擇的依據

 

其中,Ci是第i個簇,p是Ci中個的樣本點,miCi的質心(Ci中所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。

3.2.5.4 每個點到中心點的歐氏距離

歐幾里得距離的定義如下:

 

其中xiyi是文件單詞的TD-IDF值和聚類中心的TD-IDF值,就可以算出與k個聚類中心的距離。對W[i][j]的每一行,分別計算它們最近的一個聚類中心的n(i) = ki,並且判斷W[i][j]的每一行所代表的樣本是否屬於聚類。

基於簇內誤差平方和如公式(9),使用肘方法確定簇的最佳數量,該方法的基本理念就是找出聚類偏差驟增的k值。最後,經過不斷的測試和訓練,最終我們得到當k=1500時,留言文本的聚類效果最佳。 最終的聚類結果以及代碼實現如附錄三。

3.2.6 熱值計算

    基於以上步驟,我們得到留言文本的聚類結果,即是把留言文本數據中相似的留言話題聚類,然後將其劃分爲同一類。與此同時,對於聚類後的不同話題,需對其進行話題熱點的確定。在現實生活中,熱點問題的確定伴隨着諸多因素的作用,但在的已知數據中,我們將話題的點贊數、反對數、話題留言人數量以及該話題的活躍天數(即持續時間)作爲熱點話題的印象因子。再確定各因子間對一個話題的影響力度,從而確定各個因子的權值。在這裏,我們進入符號:

 

    由於留言是人們對生活各種問題的反映,希望將問題反映到相關工作部門,提高工作效率。因此,在一個話題中,一方面是點贊數即代表着人們支持的態度,點贊數α越多,意味着人們更迫切相關工作部門儘快給予回覆與解決方案,即點贊人數α對話題熱點值是起到正向促進作用;另一方面,反對人數β越多,說明該話題的實際意義不大,則反對人數β對話題熱點值起到反向削弱作用;與此同時,話題留言數量越多γ則說明人們關注點集中,對話題熱點值是起到正向促進作用,且活躍天數δ持續越長,說明話題人們持續關注,對話題熱點值是起到正向促進作用。

    於是有,話題熱點值計算公式如下:

最終得到話題的聚類結果與話題熱值的具體代碼實現過程如附錄三。

 

3.2.7 文本聚類話題提取

根據得到的聚合的話題類別,我們參考類似於數據附錄1中二級標題與三級標題,再結合留言數據的文本內容,經過人工的不斷提煉,得到全部話題分類之主題提取結果及具體實現代碼如附錄二所示,其中,排名前五的熱點話題相關內容如表2與圖14所示:

表2 排名前五的熱點

 

熱度排名

問題ID

熱度指數

時間範圍

地點人羣

問題描述

1

163

730

2017.06.08 至2019.11.27

A市經濟學院學生

學校強制學生外出工作和實行問題

2

197

714.4

2019.04.11至2019.11.22

A市A3區

購房配套入學與孩子受教育權利問題

3

444

630.3

2019.08.19 至2019.08.19

A市A5區

小區住房安全保障與租房制度混亂一系列問題

4

547

395.8

2019.01.12至2019.-09.05

A市A4區

綠地海外灘小區高鐵對周邊影響問題

5

1332

394.4

2019.01.11至2019.07.08

A

非法經營車貸並創造車貸詐騙案問題

 

 

 

 

 

 

             

 

 

根據表2與圖14可知,排名第一的熱點問題是A市A5區匯金路五礦萬境小區住房安全保障與租房制度混亂問題,其問題ID爲235,話題熱度值爲842.6;排名第二的熱點問題是A市A3區學校強制學生外出工作和實行問題,其問題ID爲150,話題熱度值爲768.7;排名第三的熱點問題是A市金毛灣與A市華潤琨瑜府購房配套入學與孩子受教育權利問題,其問題ID爲120,話題熱度值爲689.4;排名第四的熱點問題是A市A4區非法經營車貸並創造車貸詐騙案問題,其話題熱度值爲618.4;排名第五的熱點問題是A市A2至A7區區民街道亂象與長期髒亂問題,其問題ID爲70,話題熱度值爲512.1;

 

3.3 問題3方法與過程

       3.3.1 問題分析

    在日常生活中,人們渴望對“政務”的留言得到政府以及相關工作部門的合理回覆和解決方案與政府以及相關工作部門希望能夠給人民一個好的答覆意見是一個相互的過程。那麼,在這個信息發達的時代,人們利用留言的方式向政府以及相關工作部門吐露“心聲”,但是對於政府以及相關工作部門的回覆,我們需要有一個評價標準以判斷政府以及相關工作部門所給答覆意見的質量。一方面這不但確保人民提出的問題是否可以得到有效的解決,另一方面是又可以作爲一個評價政府以及相關工作部門的工作效率。

    對於如何構建答覆意見質量評價指標與模型,本文主要從以下幾個步驟進行分析與處理,首先針對相關部門對留言所給的答覆意見選取答覆意見數據特徵,然後根據答覆意見文本提取其他主要特診,並通過各種計算和編程得到適合模型的指標變量以及答覆意見數據質量評價指標,最後建立相關工作部門對留言答覆意見質量的評價指標。整個操作過程路程圖如圖15所示:

 

3.3.2 預處理

   由於答覆意見是以文本的形式存在的,其複雜度相比於數值型要複雜的多。因此我們根據整理好的答覆意見內容,對數據經過一系列的計算和編程處理,提取出於留言主題相關度和答覆意見一致性等指標因素。於此同時,爲保證數據的質量,降低一些無關數據對我們實驗結果精確率的影響,因此我們需要對以獲得的數據進行預處理和一些特殊處理,以達到優化數據的效果。其中預處理的過程主要包括以下幾個方面:

  1. 對於回覆答覆意見重複的數,保留重複答覆意見中的一條;
  2. 刪除無實際意義的答覆意見數據
  3. 使用停用詞剔除答覆意見文本內容中的無用詞,比如語氣詞、介詞、副詞等無實際意義的詞;

 

3.3.3 指標提取

    指標提取是對答覆意見數據進行分析的一項重要步驟。根據留言的內容,即是從人們留言所反饋的問題意見中提取特徵。對於本文在指標提取中發現的一些無關指標(引用)不在此處列出,本文對於答覆意見文本信息中提取的主要特徵指標有相關性、完整性、可解讀等。對於以上特徵指標我們通過以下不同的方式獲得:

     3.3.3.1 相關性

     對於答覆意見集中每一條答覆對應語料庫中的一個問大哥,通常用向量的形式來表達,由於兩個相似的文檔會有相似的主題,因此可以通過計算文檔之間的距離來集散其相似度。本文運用預先相似度計算方法來計算留言主題與相關工作部門的答覆意見之間的相似度。

其中,餘弦函數在三角形中的計算公式爲:

 

在直角座標系中假設向量a用座標(x1,y1)表示,向量b用座標(x2,y2)表示,向量a和向量b中在直角座標中長度爲a=x12+y12,b=x22+y22,向量a與b之間的距離我們用向量c表示,則c=x2-x12+y2-y12,最後,將a,b,c代入三角函數的公式中得到如下的公式:

 

其中,一個向量空間中兩個向量的夾角餘弦值作爲衡量兩個個體之間差異的大小,當與相知接近1,夾角趨於0度時,說明兩個向量越相似。當餘弦值接近於0,夾角區域90度時,表明兩個向量越不相似。

   比如對已經進行分詞後的兩個句子:

    句子A:A市特殊崗位

    句子B:L市扶貧特崗

  1. 分詞後分別得到兩個列表:

ListA={‘A市’,‘特殊’,‘崗位’}

ListB={‘A市’,‘扶貧’,‘持’,‘崗’}

  1. 列出所有的詞,將ListA和ListB放在一個 set中,得到:

set={‘A市’,‘特殊’,’扶貧’,‘崗位’,‘持’,‘崗’}

將上述set轉換爲dict,key爲set中的詞,value爲set中詞出現的位置,即‘A市’:1這樣的字典形式。

Dict1={‘A市’:0,‘特殊’:1,’扶貧’:2,‘崗位’:3,‘持’:4,‘崗’:5 }可以看出‘A市’這個詞在set中排在第一,下標爲0。

  1. 將ListA於ListB進行編碼,將每個字轉換爲出現在set中的位置,轉換後爲:

ListAcode={0,1,3}

ListBcode={0,2,3,4}

對於ListAcode於ListBcode,可以得到0對應‘A市’,3對應‘崗位’,即ListAcode與ListBcode轉換爲用數字表示

  1. 對ListAcode與ListBcode進行oneHot編碼,即計算每個分詞出現的次數。oneHot編號後得到的結果如下:

ListAcodeoneHot={0,1,1,1}

ListAcodeoneHot={1,0,1,1}

  1. 得出倆個句子的詞頻向量後,就變成了計算兩個向量夾角的餘弦值,餘弦值越大相似度越高。

 

 

根據餘弦值相似度,可以得出句子A與句子B相似度較高。

答覆意見與留言主題相關度越高,則該答覆建議對主題的價值越大,其質量越高。本文選取一個閾值,進而篩選出每個主題相關度大於該閾值的評論作爲該主題下質量較高的答覆建議。得到部門留言與答覆意見之間的相關性關係如圖16所示:

3.3.4.2 可解釋性

    可解釋性本文指的是可以追蹤到數據來源,對於答覆建議而言,可解釋性對於中文答覆意見來說意義不大,我們可以將可解釋性理解爲可讀性,

相關工作部門答覆意見的可讀性可以用自動化可讀性指數ARI(Automated Readability Index) 來表示。ARI的計算公式爲:

其數值近似等於我們可以理解一段文字的最低程度。我們將繪製部分部門id留言以及相關部門答覆意見之間的可解釋性程度如圖17

 

3.3.4.3 信息量

    信息量,也稱答覆意見長度,他表示答覆意見內容的多少。通常認爲,答覆意見越多表明包含的有用信息越多,對於人們的參考價值越大,同時在一定程度上會增加人們對相關工作部門的信服力,以幫助留言羣衆可到較爲滿意的答覆。在本文中,我們使用文本的數字表示,答覆意見中內容中,少於10個子爲0.1分。11至20爲0.2分,以此類推,大於90及以上爲1分。

3.3.5確定評價指標權重

    關於相關工作部門答覆意見質量評價模型的研究,不同的評價指標權重將會得到不同的結果。基於以上我們得到的相關評價指標,並通過計算以及編程實現得到具體的成分值,於是本文應用基於主成分分析之權值計算方法,算出爲接下來即將要構建的評價模型中各個評價指標的權重。

    首先將所得相關工作部門答覆意見中每天數據對應的各個評價指標的數據進行標準化,以降低各個不同評價指標中的量綱差異度。本文應用SPSS軟件自帶的數據標準版方法對數據進行標準化處理。

    其次將標準化後的數據導入SPSS,對各個評價指標進行主成分分析以及權值的計算,得到結果如圖18所示:

    從圖18中可直觀看出,4個主成分累計的方差貢獻率超過80%,因此4個主成分基本可以反應全部指標的信息。其中主成分1爲信息量,主成分2爲可解釋性,主成分3爲相關性,主成分4爲時效性。

    再者,利用SPSS對評價指標主成分分析得到的成分矩陣如圖19所示:

圖19 成分矩陣圖

基於圖18與圖19,我們可以對信息量、可解釋性、相關性、時效性4個主成分評價指標進行權重計算,權重確定具體計算過程如下:

首先將主成分分析中得出的“成分矩陣”及特徵根輸入;

然後計算線性組合中的係數,公式爲:

 

其中,bj表示的是第i主成分第j變量的線性組合係數,aij表示的是第i主成分的第j變量的載荷數,ci表示的是第i主成分的特徵根;

進而計算綜合得分模型中的係數,公式爲:

 

 

其中 di表示的第i主成分的方差,ej表示的是得分模型中第j變量的係數;

 

最後將所有指標數據進行歸一化,使其權重綜合爲1,其中計算公式爲:

 

其中indexj,表示的是指標權重。

  基於以上步驟,最終得到的各個不同評價指標的權重值和其模型係數如圖3所示:

 

表3 評級指標權重值以及係數表

 

評價指標

綜合得分模型中的係數

指標權重

LEN

0.420458342

0.28

SIM

0.396046336

0.26

ARI

0.420013309

0.28

REPLY

0.270383824

0.18

    在圖20中,LEN、SIM、ARI、REPLY分別對應評價指標信息量、相關性、可解釋性、時效性。且其在綜合得分模型中的係數分別爲0.420458342、0.396046336、0.420013309、0.270383824,其權重分別爲0.28、0.26、0.28、0.18。

 

3.3.6 構建答覆意見質量評價指標體系

 

表4 答覆意見質量評價指標

 

指標

說明

相關性

答覆意見於留言主題的相關性

可解釋性

關工作部門答覆意見的可讀性可以用自動化可讀性指數ARI

完整性

完整的數據標記爲1,不完整則記爲0

時效性

即留言時間與答覆意見時間間隔,時間越短,時效性越高,反之則越低

信息量

從內容上確保答覆意見質量,以答覆意見長度衡量(詞/字數統計)

 

根據上文提取的指標特徵,我們構建廣義線性迴歸模型對相關工作部門的答覆意見質量進行分析,以答覆意見中提取到的相關特徵,並利用成熟的迴歸或分類算法建立研究模型,最後對答覆意見的質量進行預測。在本文中用Quality表示答覆意見的質量,

引入符號:

則,建立迴歸模型如下

 


   

根據以上步驟計算得出各個評價指標的權重爲φi=0.28,0.26,0.28,0.18    其中,ε表示常數項,φi=φ1φ2φ3φ4表示各個評價指標對應的權值。

 

代入公式(19),並經過模型訓練得到

Q=0.28Words+0.26Relevancy+0.28Credibility+0.18Timeliness+0.01

3.3.7 模型實驗結果分析

    在實驗過程中,爲了平衡模型,對文本模型的目標值數據進行標準化,保證實驗數據同負一取值在[0,1]之間,並且我們規定對答覆意見質量的評價,當Q取值在[0,0.5)之間,表示該答覆意見質量較低,當Q取值在[0.5,1]之間則答覆意見爲高質量回復。

 

4 結論

本文經過閱讀大量文獻,進一步對“智慧政務“中的文本即羣衆的留言數、羣衆關心的熱點問題、以及相關工作部門的解決方案數據進行內在信息的挖掘與分析。,整個過程包括數據篩選與特徵提取處理,通過聚類分析,構建評價指標與建模,建模的驗證分析等,最後得出本研究提出的模型具有良好的性能。本文主要結論如下:

  1. 對獲得的留言數據利用基於Python的fastText原理,實現了對留言數據的分類,提升了可建模度,增加了模型的準確性。
  2. 聚類分析指將物理或抽象對象的集合分組成爲由類似的對象組成的多個類的分析過程,利用k-means文本聚類算法,能更好的把留言加入對應的話題簇,能夠對熱點問題進行更好的分類。
  3. 在構建答覆意見質量評價指標與模型中,通過提取的指標特徵構建廣義線性迴歸模型對相關部門的答覆意見質量進行分析。爲了平衡模型,我們對文本模型的目標值進行標準化,能夠使對答覆意見質量的評價更爲準確。

參考文獻

[1]艾楚涵,姜迪,吳建德.基於主題模型和文本相似度計算的專利推薦研究[J].信息技術,2020,44(04):65-70.

[2]王光慈,汪洋.基於FastText的短文本分類[J].電子設計工程,2020,28(03):98-101.

[3]王俊豐,賈曉霞,李志強.基於K-means算法改進的短文本聚類研究與實現[J].信息技術,2019,43(12):76-80.

[4]張弛,張貫虹.基於詞向量和多特徵語義距離的文本聚類算法[J].重慶科技學院學報(自然科學版),2019,21(03):69-72+77.

[5]馮勇,屈渤浩,徐紅豔,王嶸冰,張永剛.融合TF-IDF和LDA的中文FastText短文本分類方法[J].應用科學學報,2019,37(03):378-388.

[6]郭銀靈. 基於文本分析的在線評論質量評價模型研究[D].內蒙古大學,2017.

[7]王小華,徐寧,諶志羣.基於共詞分析的文本主題詞聚類與主題發現[J].情報科學,2011,29(11):1621-1624.

[6]郭銀靈. 基於文本分析的在線評論質量評價模型研究[D].內蒙古大學,2017.

[8]王小華,徐寧,諶志羣.基於共詞分析的文本主題詞聚類與主題發現[J].情報科學,2011,29(11):1621-1624.

[9]Nan Hu,Indranil Bose,Noi Sian Koh etc.Manipulation od online reviews:An analysis of ratings,readability,and sentiments,2012(52):674-684.

[10]R.J.Senter,E.A.SmithAutomated readability index[OL]. http://oai.dtic.mil/oai/oai?verb=get Record&metadataPrefix=html&identifier=AD06672731967.Technical Report,1997.

[11]Titov I, McDonald R. Modeling Online Reviews with Multi-grain Topic Models(C].1n:

Proceedings of the17th International Conference on World Wide Web(WWW(8).New York:ACM, 2008:Il1.120.

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章