社區問答服務的問題難度估計模型——週期競爭模型RCM

心得:本文主要描述在問答系統中如何估計一個問題的難度,並給相應的專業用戶進行匹配的問題。後文中解決了冷啓動問題(沒人回答的問題)的難度估計問題,建成RCM模型。在最後由於進行難度分類,所以能夠根據文本描述抽取,來判斷文本描述中的關鍵詞難度等級。我認爲問答社區可以作爲自動問答系統的語料庫,所以如何對問答社區(如百度知道、知乎、Stack Overflow)進行信息抽取和分類顯得很重要,如果能夠有效地抽取問題的文本信息並對難度進行識別,可以增加對輸入語句處理的速度。基於本文可以實現一個分類工具,提供接口給其他人進行數據庫抽取。思路爲在問答系統中進行分詞,把問題與其他問題進行比較,根據文中的公式計算頻率與難度,得到標籤、內容和文本描述,然後可以進行難度分類,放入N個桶中。在進行搜索的時候,可以進行分詞,關鍵詞匹配,預估難度即可完成本模塊內的任務,同樣也可以把此係統應用在搜索引擎中,與問答系統類似。課堂是對問答系統框架的瞭解,而論文中是對某一模塊的深入瞭解,兩相結合,益處很大,下一步將會是理論聯繫實際,開發一個模塊出來,有了理論指導,相信一定可以做出來。

摘要

如何正確地估計問題的難度等級在社區問答系統(CQA)服務中是一項重要且艱難的問題。之前解決此問題的研究方向是基於從問題答案引出的線索來進行問題-用戶的關聯度比較。然而,這種方法仍然存在數據稀疏的問題,例如每個問題僅僅獲得一個非常有限的比較係數。除此之外,這種方法也不能掌握最新提交的問題,所以也就不能夠進行新問題比較來改進系統。在本文中,我們提出了一種新穎的問題複雜度估計方法,命名爲週期競賽模型(RCM),能夠非常自然地組合問題和用戶的比較關係,並且根據問題的文本描述,把它分類加入統一的框架。通過合併文本信息,RCM可以有效地處理數據稀疏問題。我們下一步將會採用一種K-最臨近方法,再一次根據文字描述之間的相似之處去估計最新提交的問題的複雜度等級。最後通過實驗結果表明在兩個公開且有效的數據集中,RCM算法在任務估計明顯比現有的方法好,展現了合併文本信息的優勢。更有趣的是,我們觀察到RCM可能提供一種自動方式來測量知識水平。

1.介紹

近幾年社區問答系統服務(CQA)呈現快速發展趨勢。他們已經廣泛地被應用到多種場景,其中包含在web上尋找常用的信息,在專業領域相關的社區進行知識交換,並且在大量開放的在線課程(MOOCs)中也存在問答系統,還有很多。

       在CQA中,一個重要的研究問題是如何自動化地估計問題的複雜度級別,問題的複雜度估計簡稱QDE。QDE能夠促進許多應用的發展。下面包含幾個例子。

1)問題路由。把問題提交給合適的回答者能夠幫助提問者獲得快速和高質量的答案。Ackerman 和McDonald (1996) 已經陳述過如何根據問題難度匹配回答者的專業度來進行問題路由,可以更好地利用回答者的專業性和時間。對於回答專業性比較強的問題和MOOCs上面的問答,這點是顯得很重要的,因爲人力資源都是很昂貴的和稀有的。

2)鼓勵機制設計。Nam et al(2009)一經發現這個機制,由組織系統者提供的獎勵積分,來驅動使用者來參與到CQA服務中。分配更高的分數給更重要的問題將會顯著地提升使用者的參與度和滿意度。

3)語言學分析。在計算機領域的語言學家研究人員總是對語言和知識的重疊關係很感興趣,去見識語言如何影響一個人的知識儲備。我們會在5.4節向大家展示QDE提供的一種自動化的測量方法去了解一個單詞的知識等級。

Liu(2013)在QDE方面已經做了開創性的工作,通過回答問題的用戶之間的影響力比較引出它的思想。不過他們假設在特殊情況下,問題的困難度比提問者的專業度更高(也就是說,提出的問題的用戶),但是比正確答案(提供最好的答案的用戶)專業度更低。

一個TrueSkill的算法是更加合適的方法去估計問題的困難度並且用戶的專業程度和問題相匹配。對於我們的知識來說,已經有效地運行在QDE上了。楊(2008)曾經有過一個相似的想法,但是他的工作聚焦於一個不同的任務,估算衆包競賽服務任務的難度等級。

之前的方法有兩個主要的缺陷:1數據稀疏問題和2)冷啓動問題。在此之前,我們想要借鑑之前工作的框架,每個問題和用戶被比較兩次(一次和提問者,另一次是和給出最好答案的人),但這種方法可能無法提供足夠多的信息並且會對評估準確性造成干擾。在此之了啓示,假定如果兩個問題的文本描述特別相近,他們在難度等級上也會相近。我們採用了流形正則化來符號化假定。流形正則化是一個著名的技術,用於保存本地副本學習算法常量,即臨近點好像有相似的想法。我們提出一個新奇的週期競賽模型(RCM),它是一個最小化問題用戶比較的損失通過週期複習問題的文本描述,且能公式化QDE的方法。平滑假定提供了額外的信息用來推斷問題的難度等級,包含本算法將會高效地解決數據稀疏問題。最終,我們採用了一種K-最臨近算法來表現冷啓動估計算法,又一次受到了平滑假定的影響。

在兩個公開可用收集自StackOverflow的數據集上做的實驗表明:

1)在優化分詞方面和冷啓動問題上,RCM明顯比目前的QDE任務表現得好。

2)RCM的表現對於專業領域權重模式(決定一個問題的文本描述代表了什麼)和相似度測量(決定兩個問題間的文本相似度是如何測量的)的特殊選擇是不敏感的,結果表明給QDE添加併入文本信息是有優勢的。質量分析同樣表明RCM能夠提供一種自動化測量知識等級的方法。

本論文的主要分佈包含(1):我們有文本描述方面巨大的優勢來解決數據稀疏和冷啓動的問題。對於我們現有的知識來說,這是第一次文本信息在QDE方面提出。(2)我們提出了一種創新QDE方法。把用戶-問題比較和問題文本描述組合進一個統一的框架。這個方法在QDE上比現有的方法有顯著的提升(3)我們陳述了一種基於文本描述的冷啓動估計問題困難度的可行性,在實際中有多種應用。而且我們瞭解到,這是在冷啓動方面第一次奏效。(4)我們將會探索RCM如何自動化地測量知識等級。

本文的剩餘部分的結構如下:

第二部分描述了問題的公式化和RCM的目的。第三節敘述了RCM的細節。第四節討論了冷啓動估計問題,第五節敘述了實驗過程和結果。第六節闡述了相關的工作。第七節總結了本論文並且討論了下一步可以進行的工作。

 

2前述

2.1 問題公式化

       CQA服務提供一個可以提問和搜索其他人的回答的平臺。給定一個CQA入口,考慮一個特殊的在相同主題下的問題和回答的情況,例如Stack Overflow下的“C++編程”類別。當一個提問者ua在該類別下提交了一個問題q後,會有幾個回答者來回答問題。在所有燒到的回答中,最好的回答將會由提問者選中或者由社區投票選擇。最好的答案的回答者被記爲最佳回答者ub。其他的回答者將被表示爲O={uo1,uo2,uo3…,uom}。一個問題回答的線程(QA線程)被表示爲一個四元組(q,ua,ub,O)。收集本類別下的所有QA線程,我們得到了M個用戶和N個問題,分別表示爲和。每個用戶UM有一個專業度評分,表示他的專業等級,越大,該用戶越專業。每個問題QN都有一個困難度評分,表示他的困難度。困難度評分在指定領域內互相評分。除此之外,每個問題QN都有一個文本描述,表示爲一個V維向量dn,V爲詞彙表的大小。

       問題複雜度估計(QDE)任務的目的是通過利用QA線程T ={(q, ua, ub,O) : q ∈ Q}自動化地學習問題複雜度評分規則,就像是在指定類別下的問題描述D = {d1, d2, · · · , dN}。在第二節和第三節,我們考慮被解決的問題困難度評分估計,也就是說已經選擇出最好的答案的問題。在第四節將會進行估計未被解決的問題的複雜度評分。

2.2基於競爭的方法

       Liu曾經在QDE方面提出一種基於競爭的方法,關鍵思想是1)從QA線程中提取匹配競爭,2)估計問題困難度基於提取出的比較關係。

       爲了提取競賽,假定問題複雜度評分和用戶專業度評分在相同的尺度上度量。給定一個QA線程(q, ua, ub,O),也可以假定爲:

       假定1(匹配比較假定):

       問題q的困難度比提問者ua的專業度評分更高,但是比最佳回答者ub的專業度評分更低。除此之外,最佳回答者ub比提問者ua的專業度更高,也比任何一個在O中的回答者更高。給定這個假定後,從QA線程中提取出的(|O| + 3)個配對競爭,包含1)在問題q和提問者ua之間的競爭,2)問題q和最佳回答者ub之間的競爭,3)在最佳回答者ub和提問者ua之間的競爭,還有一個4)在最佳回答者ub和O中的每個回答者之間的|O|個競爭。問題q是第一個競爭中的優勝者,最佳回答者ub是剩餘的(|O| + 2)個競爭的優勝者。這些配對錶示爲Cq ={ua≺q, q≺ub, ua≺ub, uo1 ≺ub, · · · , uoM ≺ub},i<j的意思爲競爭者j在競賽中打敗了競爭者i。使

      

表示爲包含從T中提取出來的競爭者的所有配對集合。

   給定競賽集合C,Liu後來採用了一種TrueSkill算法來學習競爭者的技能級別(即問題困難度評分和用戶專業度評分)。TrueSkill假定每個競爭者實際的技能等級服從正態分佈,其中μ是平均技能等級,是預估不確定性。它更新預估值在線模式:對於一個新觀察的輸贏結果競爭關係,1)給優勝者增加技能等級,2)爲失敗者減少平均技能等級,和3)當有更多數據被觀察時,縮減每個競爭者的不確定性。Yang曾經提出一種基於競爭的方法來估計任務困難度等級,它是通過頁排序算法實現的。

2.3 目的討論

這個方法在估計競爭者的技能等級時只是基於它們之間匹配競爭。一個競爭者參與越多的的競爭,這個技能等級估計越精確。然而,根據匹配比較假定(假定1),每個問題僅僅參與兩個競爭關係,一個是和提問者,另外一個是和最佳回答者。因此,這可能沒有足夠的信息來認定他的難度等級分數。我們把這個叫做數據稀疏問題。

附加元數據的優勢在前文已經敘述過了,它是一個有效的方法來處理數據稀疏問題,已經在諸如合作過濾和私人化調查方面有所應用了。這個方法行之有效的根本原因是基於元數據來平衡在用戶之間的關係。對於QDE來說,初步觀察法已經證明了文本描述可以描述一個問題的困難度。舉個例子,考慮StackOverflow中“數學”類別下的QA線程。把問題劃分爲三個組別,1)低難度,2)中等難度,和3)高難度,根據TrueSkill算法估計問題困難度。圖1表示在每個組中的標籤分佈頻率,每個組內的標籤大小和頻率成比例。結果顯示,問題的標籤確實有影響問題困難度的能力等級,例如,低難度的問題通常有“作業”,“計算”標籤,而高複雜度通常有類似於“通用分類方法”和“數論”標籤。我們會用皮爾森相關係數計算1)每兩個組之間的差別和2)每兩個組別之間的歐幾里德距離。結果是r=0.6424,表明困難度差別和文本距離是相當有關聯的。換句話說,兩個問題的文本描述越相似,它們的困難度越接近。我們用文本信息來消除問題之間的困難度問題,假定

假定2(平滑假定):

如果兩個問題qi和qj它們的文本描述很di和dj接近,它們在困難度分數bi和bj上面也會很相似。平滑假定通過參考文本相似度來爲我們提供了額外的有關問題複雜度分數的信息。它服務於匹配競爭,而且可能會幫助我們解決之前的方法無法解決的數據稀疏問題。

3 QDE的模型文本相似度

3.1 週期競賽模型

我們從幾個記號開始介紹。就像問題複雜度評分可以直接與用戶專業度評分相比較一樣,我們把問題視爲僞用戶。令表示爲所有(僞)用戶的技能等級(即專業度評分和困難度分數):

,

其中,¯θi 爲第i個實體。前m個實體時用戶專業度評分,記爲¯_u ∈ RM。後N個實體時問題困難度評分,記爲,令和分別記爲和的第i個實體。

配對競爭擴展。我們把每對競爭i<j的偏差記爲:

其中p爲1或2.這個偏差被定義爲兩個競爭者之間的技能差距,即,用來測量預期輸出和實際輸出的不相關度。如果差距比預定義的下限δ還要大,那麼競爭者j可能會在競爭中擊敗競爭者i,可能在實際輸出中同時發生。那麼偏差就爲0。另外,如果與實際輸出相反,那麼競爭者j有更高的機率輸掉競爭。那麼偏差值將會大於0。差距越小,矛盾的機率越大,偏差也會越大。值得注意的是,下限δ可以爲任何正值,所以我們不必添加一個常數限制。由於沒有一般性的偏差,所以在本論文中我們把δ設爲1。我們將會在3.2節,定義在公式(2)中的偏差和svm偏差有很大的相似性。鏈式偏差時p=1,二次偏差p=2。

給定競爭集合c,僞(用戶)的技能等級估計用來解決下列優化問題:

其中,第一個變量是一個經驗偏差值用來測量不符之處。第二個變量用來規範化防止過度擬合問題;是一個折中係數。它也是一個基於競爭的QDE方法,成爲競賽模型(CM)。

擴展問題描述。多樣規範化是一個著名的技術用來學習算法保存本地變。在QDE中,平滑假定傳遞相似的“常量”,即臨近問題(就文本相似度而言)和相似的困難度分數。因此,我們把假定符號化下列多樣性規範化:

其中wij是問題i和問題j之間的文本相似度。是相似度矩陣,wij是第(i,j)個實體;是對角矩陣,對角線上的第i個實體是;是圖形化Laplacian。最小化R導致平滑假定:對於任意兩個問題i和j,如果他們的文本相似度wij很高,複雜度差值將會變小。

融合方法。把等式(3)和等式(4)結合,我們獲得了RCM,量化下列優化問題:

這裏的也是一個折中係數。RCM的優勢包含1)他自然地公式化QDE爲最小化一個多樣規範化偏差函數,無縫整合匹配競爭和文本描述。2)通過合併文本描述,它可以解決之前方法沒有解決的數據稀疏問題,並且在QDE任務方面有顯著提供。

3.2學習算法

重新定義第k個配對競爭(假定在競爭者i和j)作爲(xk,yk)。表示競爭者:

其中是第l個xk個實體。是輸出:如果競爭者i擊敗了競爭者j,yk=1;否則,yk=-1。在等式(5)可以被重寫爲

其中z=是一個塊矩陣;IM ∈RM×M 和 IN ∈ RN×N are是標識矩陣;p=1和鏈式偏差,p=2爲二次偏差。在等式(2)中已經明確了偏差定義,和SVM偏差相同的樣式。

變量和二次偏差是不同的,和鏈式偏差是相同的。我們採用了一種傾斜方法來解決優化問題。算法開始在點需要很多次迭代從移動到方向用下列負增長公式:

其中是學習率。增長計算公式爲

其中它總是作爲一個下降函數,我們可以找到最佳點:

其中。全部過程在算法1中總結。

       收斂。恆定學習率()。算法1保證在最佳值範圍內收斂,

其中表示爲的最小值,是一個和學習率有關的常量。更多細節請參考(Boyd)。在我們的實驗中,我們設置迭代次數爲T=1000,學習率,收斂可以被觀察到。

       複雜度。對於鏈式偏差和二次偏差而言,RCM的時間複雜度(每次迭代)和空間複雜度都是。其中|C|是競爭總數,M和N分別爲用戶數和問題數目,是在圖Laplacian L中非0實體個數。在分析中,我們已經假定並且

4 冷啓動估計

在之前的部分已經討論瞭如何估計已解決問題的困難度評分問題,通過提取配對競爭方法。然而,對於每個新提交的,還沒有任何答案的問題,沒有競爭能夠提取,上面的方法都不奏效了。我們把這個稱爲冷啓動問題。

       我們應用了一個啓發式K最臨近算法(KNN)來進行冷啓動估計,還是通過影響平滑假定法。關鍵的想法是從解決的很好的問題中根據文本描述來擴散困難度分數來進行冷啓動。特別地,假定存在一個解決的很好的問題的集合,它們的困難度分數已經被QDE方法評估了。給定一個冷啓動問題q*,我們剛開始選擇K個和q*文本描述相近且解決完畢的問題作爲相鄰問題。q*的困難度分數可以預測它的臨近問題的平均困難度分數。KNN算法解決了在冷啓動和解決很好的問題之間的問題,依靠文本相似度,可以有效地解決處理冷啓動問題。

5 實驗

我們已經從實驗中測試了除了RCM估計解決問題和冷啓動問題的預估困難度評分準確度。除此之外,我們已經明白了一個單詞的困難度如何被RCM有效地測量。

5.1 實驗設置

數據集。我們獲得了一個來自Stack Overflow在2008六月31號到2012年8月1號之間的公開可用的數據集,包含多個種類的QA線程。我們考慮了“C++編程”和“數學”分類,從每個種類中隨機地取樣自10000QA線程在,分別表示爲SO.CPP和SO/Math。對於每個問題,我們把標題和內容域作爲文本描述。對於在標準列表和單詞中的數據集和停止符,總的頻率不小於10。表1給出了數據集的統計結果。

爲了更好地平谷記過,我們從數據集中隨機地去養了600個問題匹配來比較每個問題困難度。我們有兩個畢業生主要參與到計算機科學相關的SO/CPP問題中,兩個主要參與到SO/Math問題。對於每個問題,僅有標題,內容和標籤提供給實驗人員。給定一個問題對(q1,q2),實驗人員被要求給定三個標記,分別表示爲問題q1比問題q2有一個更高、更低或者相同的問題困難度評分。我們用Cohen的κ係數來測量實驗者之間的滿意度。結果是SO/CPP爲κ=0.7533,SO/Math的κ=0.8017,結果表明飾演者之間的滿意度在兩個數據集之間是有相當充實的。在移出和問題不相關的匹配之後,有521個描述SO/CPP的問題對,539個SO/Math問題對。

後來我們把問題對隨機劃分爲發展/測試/冷啓動集合,比例爲2:2:1。開始兩個集合被用來評估已解決困難的困難度。特別低,發展集合被用來參數調整,測試集合被用來改進方法。最後一個測試機和被用來平谷冷啓動方法,在這個機和的問題中包含自RCM的學習進程和基線方法。

基線方法。我們考慮了三個極限方法:頁排序(PR),TrueSkill(TS)和CM方法,都是僅僅基於RCM匹配競爭。

PR首先由一個競爭圖組成,如果競爭者j擊敗了競爭者i,那麼創建一個從競爭者i和競爭者j的邊緣。頁排序算法是利用了節點關聯關係的重要性,也就是說問題困難度評分和用戶專業度評分,這個阻塞因子從0.1調整到0.9,每次調整0.1。

TS已經被Liu應用到QDE上了。我們按照他們建議的方式來設置模型參數。

CM通過等式3來解決QDE。我們設置λ1爲0,0.01,0.02,0.05,0.1,0.2,0.5,1。

我們把RCM與基線方法比較一下。在RCM中,參數λ1和λ2都設置爲0,0.01,0.02,0.05,0.1,0.2,0.5,1。

       規範規範。我們把準確率作爲測量規範:

如果一對問題根據相關困難度排名是一致的,那麼這個問題對將被視爲是正確的。精確度越高,這個方法的表現越好。

5.2 已解決問題的估計

第一個實驗測試已解決問題的困難度評分預估。

       估計的準確度。我們首先比較了PR,TS,CM和RCM在SO/CPP和SO/Math數據集的準確度,發展集合決定最佳參數設置。表2是結果,其中“H”表示線性偏差,“O”表示二次偏差。在RCM中,計算圖Laplacian L,我們採用了布爾變量權重模式和Jaccard係數作爲相似度測量方法。從結果中我們可以得到1)RCM在所有數據集上的表現明顯比其他基線方法更好(t-test,p-value<0.05),闡述了擴展QDE問題描述。2)RCM想比其他基線方法在SO/Math比SO/CPP提升更大,所以SO/Math的文本描述更能影響問題的困難度等級。結論是SO/Math問題是分佈更不均勻,屬於多個領域的數學問題。難度差異在不同子領域之間有時也是很明顯的(例如通用分類方面的問題難度一定比線性代數更難),使得文本描述在區分問題的難度等級上更加有效。

       圖形化調和算子變量。我們後來把不同變量的權重模式和相似度測量方法整合入一張圖形調和算子中。每項的權重模式決定了一個問題的文本描述如何展現。我們擴展了一個布爾模式,三TF模式和3TFIDF模式。這些相似的測量方法確定了兩個問題間的文本相似度如何計算。我們擴展了Cosine相似度和Jaccard係數。細節描述在表3中。

圖2和圖3分別展現了在測試集SO/CPP 和SO/Math 傻狗RCM變量的估計準確度,又一次通過在發展集合獲得了最佳參數設置。CM的表現在圖中也給出了(圖中的直線部分)。從結果中我們可以看到1)所有的RCM變量在兩個數據集中都比CM表現得好,大部分提升是很明顯的(t-test,p-value<0.05)。在後面將會闡述併入文本描述的影響不被變量權重模式或相似性測量的特殊選擇而影響。2)布爾變量權重模式表現的最好,考慮不同的相似度測量方法,偏差類型和數據集的完整性。3)Jaccard係數在SO/Math表現的和Cosine相似度一樣好,但是在SO/CPP上面更高。通過實驗,我們採用布爾變量權重模式和Jaccard係數來計算圖形調和算子。

5.3 冷啓動問題估計

第二個實驗測試了這個方法在估計冷啓動問題的困難度評分表現。我們採用了布爾變量權重模式來表示一個冷啓動問題,並且利用Jacard係數來選擇最近的相鄰點。

       圖4和圖5分別列出了不同的方法在SO/CPP和SO/Math上的冷啓動估計準確度,用不同的K個用戶(最近點的數目)。在K小於11時,SO/CPP準確度十分不穩定,小於6時,SO/Math十分不穩定,我們測量了K在SO/CPP範圍[11,20]和SO/Math範圍[6,15]時的結果。平均(不同的K值)冷啓動估計準確度在後面表4給出。所有的結果都記錄在冷啓動集合中,最佳參數設置方法在5.2部分採用。從結果中我們可以看出1)冷啓動估計是可能的,通過選擇一個合適的方法(例如RCM)可以實現一個相當高的準確度,實際應用在問題路由和更好的鼓勵機制設計中。2)K變量的值(紅/藍點狀線)在相同偏差類型中對CM影響更大,和PR、TS(灰色點狀線)相同,在冷啓動估計上展現了RCM的優勢。3)冷啓動估計精確度在SO/Math比SO/CPP更高,有一次表示出在SO/Math在文本描述中對困難度影響的重要性。這個和5.2節的環境觀察結果相一致。

5.4 詞彙的難度等級

第三個實驗探索了一個詞語的難度等級如何通過RCM算法自動測量。

       在SO/CPP和SO/Math中,我們已經把問題難度評分範圍(由RCM評估)限定在10個桶內,然後把問題根據難度評分分配在這些桶中。一個更大的桶ID表示爲一個更高難度等級。然後,給定一個單詞w,用下述方法判斷它在每個桶中出現的頻率:

爲了使得頻率更有意義,少於50個問題的桶將被捨棄。我們從每個數據集中選擇了四個單詞作爲例子。他們的在不同桶中的參數頻率如圖6和圖7所示。

在SO/CPP中,我們觀察到“array”和”string”在問題中有更高的頻率卻是低難度,”virtual”更高,然後”multithread”最高。直覺告訴我們,”array”和”string”通常是和一些編程語言基礎方面有關聯,然而”virtual”和”multithread”通常和更多高級的主題相關。相似的現象在SO/Math中也可以被觀察到。結果表示爲RCM能夠提供一種自動化的方法來測量單詞的困難度等級。

6 相關工作

QDE在估計任務複雜度等級和專業度級別上有重大作用。在這個問題上的研究主要分爲兩類:1)基於二元響應和2)基於部分順序響應。在第一類中,二元響應(即由用戶提供的答案是否正確)可以被觀察到,基於變量響應理論技術在後面將會得到應用。第二種,部分順序響應,基於配對比較方法在後面也得到了採用。QDE屬於未來。

 

       對於我們來說最重要的工作是Liu提出的有關在QA服務中基於配對比較的方法來估計問題困難度等級。他們已經敘述了一個相似的方法用來估計用戶的專業度級別。Yang和Chen也提出了基於配對比較的方法用來進行任務困難度比較和在衆包設置中進行聚合排名。我們的工作和之間基於配對比較的方法不同之處在於我們更好地利用了文本描述信息,公式化爲一個多方面的規範。

       多樣規範化對於機器學習來說是一個幾何學有關且有效的框架,可以使機器學習模型變得平滑,表示爲數據的幾何學結構。在這個框架中,緯度進行減少和半監督學習算法已經建立成功。由於維度減少了,多樣規範化被用來保證相鄰點有相似的低維度表現,在半監督學習中他被用來確保相鄰點有相似的標籤。在我們的工作中,我們假定相鄰的問題(在文本相似度方面)將會有相似的困難度等級。

       預測文本的閱讀複雜度等級也是一個重要的問題。它自動化尋找資源來提升學生的閱讀能力,同時也能夠幫助人們進行私人化的網頁尋找。在預測閱讀難度等級任務中,文本目標人羣的不同需求強度已成定局,而且它可以很容易地從網絡中獲得。然而,仍然不能自然地給我們網絡上的QDE任務做批註。其他相關的問題包括給搜索引擎做查詢差異估計和在自動化問答系統中做問題差異估計。在這些任務中,查詢/問題差異是面向系統的,且和與人類知識不相關的任務,和我們的設置是有點不同的。

7 總結和下一步工作

       在本論文中,我們提出了一個新穎的方法用來在CQA服務中估計問題困難度等級,我們稱爲週期競賽模型算法(RCM)。它在包含問題-用戶比較的文本描述方面有巨大的優勢,因此能夠有效地處理數據稀疏和更精確的估計。我們同樣採用了一個K-最臨近點方法用來估計冷啓動問題的難度等級。在兩個公開有效數據集上做的實驗表明RCM方法相比現存的方法在估計任務上有巨大的優勢,無論是已解決問題還是冷啓動問題都有明顯提升,闡釋了併入文本信息的優勢。我們也觀察到了RCM能夠自動化地測量單詞的知識等級。

       在未來的工作中,我們打算1)強化RCM的效率和擴展性。3.2節分析了算法的複雜度,表明RCM算法的瓶頸是存儲和生成調和算子圖像。我們將會研究如何處理這個瓶頸,例如通過並行分佈式運算。2)把RCM應用到非技術領域,例如雅虎的“新聞”類別!我們可能無法明確地區分回答者是否爲該領域的專家,它可能比區分出問題是“簡單問題”還是“困難問題”還要難。但研究RCM是否能在這些領域仍然奏效是值得的。

 

其他

李佳政 計算機1402班20143616

 

8原文

Regularized Competition Model for Question Difficulty Estimation in

Community Question Answering Services

Quan Wang† Jing Liu‡ BinWang† Li Guo†

†Institute ofInformation Engineering, Chinese Academy of Sciences, Beijing, P. R. China

{wangquan,wangbin,guoli}@iie.ac.cn

‡Harbin Instituteof Technology, Harbin, P. R. China

[email protected]

已放入附件中。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章