論文快速降重的一點實用性見解(僅供參考)

本人在寫畢業論文查重降重過程中的一點小小的總結,以paperfree爲例,現分享給大家,僅供參考!

 

一、首先摸清楚查重的算法。Paperfree的算法是:

總體相似度 = 相似字數 / 檢測字數
被系統自動識別出來的非正文部分(如目錄,標題,公式,圖表,參考文獻等)不參與檢測,檢測字數一般略小於論文字數。
相似字數 =(句子1字數 * 句子1相似度 + 句子2字數 * 句子2相似度 + ...... + 句子n字數 * 句子n相似度),句子相似度範圍0.00~1.00,綠色句子相似度按照0計算。
紅色句子爲重度相似(80%~100%),建議修改;橙色句子爲輕度相似(50%~80%),可酌情修改;綠色句子表示沒有檢測到相似語句。

簡單歸納:

論文重複率=相似字數÷總字數

其中i句相似度>50%爲有效,<50%記作0

簡單理解:查重時把文章分解爲一個個小句,根據某個算法算出單句相似度。把其中相似度大於50%的句子的相似字數加總再除以論文總字數即爲重複率。

單句相似度這個概念似乎比較玄學,網站沒有明確說明算法,但目前NLP實踐中,文本相似度的算法有很多種:Jaccard相似度、餘弦相似度、Jaro相似度等,對於人工修改的參考意義都差不多,以Jaccard相似度爲例:
J(A,B)=\frac{|A\cap B|}{|A\cup B|}
即用兩句話中漢字的交集數除以並集數,如“小紅在寫論文”“小綠在改論文”兩句話,交集字符爲小/在/論/文(4個);並集字符爲小/紅/在/寫/論/文/綠/改(8個)。因此,Jaccard相似度=4/8*100%=50%。

最重要的一個信息是:相似度>50%的句子纔會被標黃,相似度>80%的句子會被標紅。相似度<50%的被標綠並且相似度被計爲0.


二、那我們的降重目標就很清晰了,一共有兩個途徑

①降低每句相似字數,以降低總相似字數;

②把句子的相似度降低到50%以下,那麼這句相似字數直接就變爲0了。

我們發現這兩個途徑其實一樣。但是②的效果更顯著,因爲能直接把句子變綠(要堅強)從而大幅降重,所以對於大多數句子,我們的目標顯然是用方法②把他變綠。。。

當然還有一些句子非常堅強,比如“根據圖2-1我們可以看到,...”這種句子就比較難綠,但是總體而言難綠的句子不多,所以把重複率降到5%以下是不難的。


三、具體措施

我們目前看到的大多數降重思想都侷限在方法①,即沒有目的地用同義詞替換、把字句被字句轉換等方法盡力降低相似字數。但是有了科學思想的指導,我們的修改方向就更清晰了。

1.首要爭取對象——50出頭

像這種相似度50%出頭的黃色句子是首要爭取對象,因爲只要改幾個字就能變綠,從50直接變成0,因而在降重工程中最受歡迎(大家都爭着綠他,很是可憐)。

改成“這進一步說明了IIT現象更易發生於初始要素稟賦相近的國家間”後,綠化成功。

2.短句合併成長句增加分母

這種定義引用類的紅色句子,相似度88%,應該無可救藥了吧?但是查重分解句子是會根據標點的,我刪去句子後面的逗號,將短句連成長句以增加該句的分母,對語序做了調整,最終竟然硬生生把這句定義給綠化成功了(請叫我綠化小達人)。

修改後的句子:“SITC分類規定的相同組別中具有一定生產或消費替代程度的產品的雙向流動”,綠化成功√。我也不知道這樣一改相似度怎麼就降到50%以下了,但是這種思路可以借鑑,就是短句並長句增加分母。同理也可以通過擴句增加分母,其精髓在於用自己的語言稀釋乾貨(注水綠化法),以降低相似度。如“A導致了B”改成“C帶來的A導致了D現象的產生最終造成B的結果”,其中C和D可以扯得越長越好,這樣句子相似度會大大降低。

3.長句分解爲短句棄卒保帥

總有些專業詞組幾乎不可能修改,而且在句子中佔的比重過大,需要戰略性地放棄修改這些部分,把他們獨立成一個短句分離出去以方便後面句子的綠化工程。例如:

Nuno 和Faustino(2009)運用面板數據模型對葡萄牙和金磚國家貿易中的產業內貿易水平影響因素進行的實證分析表明,一國資源稟賦的數量與該國產業內貿易發展程度存在負相關性。

這個長句子開頭部分的“Nuno 和Faustino(2009)...”一堆字符是無法改變的(名字換成中文也同樣被人寫過了),非常佔空間,即便把後面的內容加長很多也很難把整個句子的相似度降到50%以下。這個時候可以放棄小部分的降重,把前半句改成獨立的句子“Nuno 和Faustino(2009)同樣對IIT影響因素進行了研究。”後面也改寫成獨立的句子“他們應用面板數據模型進行的實證研究發現,在葡萄牙與金磚國家的雙邊貿易中,初始的自然資源對該國對外貿易的IIT指數具有負面的影響效應”。這樣雖然前面的句子依然重複,但是捨棄了大段無法改變的重複字符後,後面的句子就有了被綠化的可能,整體的重複率還是會降低。

4.無可救藥型直接刪去

下面這個紅色的句子估計被無數人用過了,大家也很可能已經嘗試過用各種姿勢♂綠他,於是知難而退,索性直接刪掉,也不影響文章的意思。


四、經驗總結

由於在線改重功能可以改一句話及時看到新的重複率,所以可以利用算法技巧不斷修正結果,非常好用。但是仍存在該網站和知網查重率不一致的問題,在一些情況下查重率偏差很大。

重複率有差異的原因主要在兩處:一是算法嚴格程度差異;二是網站背後的數據庫大小差異。

1、算法嚴格程度差異可能是由於50%標綠這個閾值大小不同,也可能是單句相似度的Jaccard相似度/餘弦相似度/Jaro相似度等指標選擇不同,但知網算法的嚴格程度通常小於外庫。原因在於第2點差異。

2、知網的數據庫大於其他查重網站。知網本科論文查重與其他網站的最大區別在於知網pmlc有【大學生論文聯合對比庫】,這個數據庫收錄了各學校歷年的畢業論文,這些論文是其他網站所沒有的。因此其他網站會通過嚴格算法來使查重結果和知網平衡,這也是很多抄襲、大篇幅粘貼者的查重率在知網和外網差異很高的原因。但是對於自己寫作的有原則的大學生來說,paper系列的查重結果肯定是有參考意義的。並且有些同學認真寫的論文在知網的重複率很可能比其他網站更低。(案例A:某同學前幾天私信我說paperpass重複率39%,但是他說自己真的是認真寫的。我就建議他在學校知網上試一次,結果出來竟然是6.9%,這說明paperpass的單句算法過於嚴格)

相信大多數同學還是堅持原創,那麼用Paperfree系列以及上述降重技巧肯定能滿足需求了,降到5~10%不是什麼難事。

 


作者:Edo.K
來源:知乎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章