畢業生大禮包之論文查重

畢業生最頭疼的就是論文,論文查重讓人覺得很無奈。看到這篇文章的我覺得都是對中文相似度計算有興趣的,而查重本身就是相似度計算,既然如此那就鑽他的漏洞,把查重率降下來。大家可以不相信我,但我今年的論文知網查重是百分之零,對的,你沒看錯,根本查不出來。
授人以魚不如授人以漁,告訴你怎麼做很多人還是做不好,不如先告訴爲什麼這麼做。首先要清楚一點,論文查重是大量句子對海量句子的計算,這種方式就決定了不可能採用句意相似度計算,句意相似度計算算法複雜度太高了而且涉及到大量詞語相似度計算。
說到這裏如果之前看過我文章的就有點明白了,句意相似度是句子相似度計算中最重要的部分,這部分被去掉之後也就剩下全文匹配算法和句法相似度計算着兩種了。這時候就要說說他們的弱點了,全文匹配用的是三角函數算法,這種算法只能查直接抄襲的,爲了避免誤會一般都是以十四個字爲標準。由此我們得到第一條原則,直接抄過來的句子一定要想辦法斷句,把一個長句子斷成數個短句,有人跟我說這辦法不好用,我一看。。。。你用逗號隔開有個毛用啊,還不是一句啊,小學語文是體育老師教的啊。。。於是全文匹配這一招就被我們破了。
接下來就是句法相似度了。這個就有點麻煩了,句法相似度匹配算法的衍生算法很多,目前最流行的就是三種,句長相似度,詞形相似度,詞序相似度。句長相似度剛剛破全文匹配的時候已經順手破了,詞序相似度怎麼破呢?詞序相似度會挑選最重要的詞判讀他們的順序和位置,也就是所說的關鍵詞。不要弄混,這裏的關鍵詞是主謂賓這類詞。那怎麼破呢?對的,如果找不到兩個句子中相同的關鍵詞就可以了,舉個例子,他買電冰箱和小明購入電驅動式製冷設備。人類思維來看這兩句相似度非常高,但是句法分析來看根本不一樣,這就是缺少句意分析出現的漏洞。於是第二招就是把關鍵位置的詞換成同義詞或者換個說法。至於詞形相似度就是找兩個句子中相同詞的個數,第二招用好了根本不用愁。
有這兩招在手那些輕型語言引擎只有被你吊起來打的份了,目前所有的論文查重也就這點本事。想要對付高級語言引擎怎麼辦?這裏有個終極大招,但是不太推薦,因爲這種文字遊戲不僅僅讓程序看不懂人也可能看不懂,那就是歧義。比如說,咬死了獵人的狗。這句話別說程序,人都不明白到底是啥意思,到底是獵人死了還是狗死了,程序比較蠢只會用固定的模式來分析,實驗兩次就能知道是用的什麼策略,然後就可以恣意妄爲了。畢業生知道這招就行了,別用,不然不等到查重你導師就該罵你了,因爲歧義說到底就是語法錯誤。
有其他問題的可以留言。順便說一句,本人提供畢業設計指導,有需要的可以聯繫我。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章