論文筆記：Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis

一、基本信息

論文題目：《Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis》

發表時間：IEEE Access 2019

作者及單位：

二、摘要

在當今時代，信息安全是所有組織的頭等大事。隨着物聯網、大數據和雲計算等互聯網技術的快速發展，個人、政府和軍隊面臨着數據安全問題。隨着數據的高速增長，如何在設計智能城市的同時安全有效地管理海量的數據成爲研究者們面臨的一項具有挑戰性的任務。製作數字內容的非法拷貝是相當容易的。數字內容的驗證是一個主要問題，因爲數字內容是每天生成並通過互聯網共享的。有限的技術可用於文檔版權保護。然而，大多數現有技術在水印插入或缺少容量時會產生失真。在此基礎上，提出了一種基於數據挖掘的文檔版權保護和所有權確認的數字水印技術。將數據挖掘技術應用於從文檔中尋找合適的屬性以嵌入水印。該模型爲本地和雲計算模式下的文本文檔提供了版權保護。爲了評估所提出的技術，使用20個不同的文本文檔執行許多攻擊，例如格式化、插入和刪除攻擊。在峯值信噪比（psnr）在64.67%～71.03%之間，相似度（sim）在99.92%～99.99%之間時，該方法具有很高的不可見性。該技術具有很強的魯棒性和抗格式化攻擊能力，與以前的技術相比，該技術的性能也得到了提高。

三、主要內容與工作

1、數據是智能城市的關鍵要素，它支撐着數據的基礎設施，幫助人們獲取數字內容。智能城市的架構如圖1所示，數據存儲、處理和分析在中心位置。數字水印爲數字內容的版權保護和所有權確認提供瞭解決方案。一條祕密信息被放置在一個數字內容中，而不會損害有價值的數據。此機密信息稍後用於所有權識別。數字水印分爲文本水印、圖像水印、音頻水印和視頻水印。大部分的研究都集中在圖像、音頻和視頻上。目前，由於文本文檔的大量生成和共享，文本水印技術已經得到了廣泛的應用[3]。

個人、政府官員和軍隊面臨的數據安全問題也會影響到智能城市。數字出版商有權利，但面臨許多威脅，如非法使用版權、數據操縱和信息再分配[4]。文本文檔幾乎是每個組織或公司（如審計公司、銀行或任何大型私人或公共公司）的一部分。這些文件的形式有財務報表、法律聲明、出生證明、軟學位、分類報告和聲明[5]。
然而，大多數現有技術在水印插入過程中產生失真，這直接影響了不可感知性。此外，大多數現有技術不健全或缺乏能力。將數字文件轉換爲其他格式可能會丟失嵌入的水印。如何保證文本文檔的原創性和版權保護，需要一種抗格式攻擊、不易察覺、嵌入容量高、安全可靠的水印技術。本文提出了一個新的框架來解決這一問題，以克服當前文本水印的挑戰。

2、我們在這項研究中的主要貢獻如下：

（1）利用數據挖掘技術，提出了一種新的數字文本水印模型。利用數據挖掘技術選擇合適的ms-word文檔屬性，嵌入大尺寸的水印信息。
（2）提出了一種安全可靠的數字水印技術，該技術利用數據挖掘技術在本地和雲模式下爲文本文檔提供版權保護。
（3）該技術對格式攻擊具有99.9%的魯棒性，不易察覺，安全性高，目的是保護大容量的文本文檔。
（4）該技術支持格式轉換，適用於某些語言。
（5）該技術將適用於大數據和物聯網，提高智能城市數字文本文檔的安全性。
論文的其餘部分結構如下。第二節介紹了相關工作。第三部分介紹了水印的嵌入和提取過程。第4節說明擬議工作的方法。第5節對實驗結果進行了評價，而第6節總結了目前的工作和未來的方向。

3、ms-word文檔由兩類組成，一類是應用程序類，另一類是文檔類。應用程序類屬性通過VisualBasic（VB）修改以嵌入水印，並且不會影響文檔類。ms-word文檔的特殊屬性適用於兩個原因。首先，在不影響整個文檔的情況下存儲了大量的信息。其次，任何ms-word相互命令都不會影響水印信息[19]。表2給出了合適的ms-word屬性，這些屬性被選擇用於水印。

將水印信息分成相等的組嵌入到這些屬性中，然後開始第二級嵌入。在二級嵌入中，來自佈局的ms-word文檔邊距是目標。修改mar gin top、margin bottom、margin left和margin right的值，並分別替換爲四個變量。水印文檔是以可移植文檔格式（PDF）生成的，在驗證過程中，當文檔格式更改時，文檔邊距不能更改並保持不變。當我們將MS Word文檔轉換爲PDF或PDF到Word文檔時，文檔的邊距和佈局不能更改。嵌入水印後，將ms-word文檔轉換成pdf（可移植文檔格式）並通過雲存儲或共享。算法2給出了水印嵌入的完整過程。

4、該技術對格式攻擊具有99.9%的魯棒性，如前所述，水印嵌入採用ms-word文檔的特殊特性。任何常見的MS Word應用程序命令都不能中斷水印。如圖10所示，在對水印文檔應用不同的攻擊（包括剪切、複製、粘貼、字體大小、字體系列和其他更改）後，從文檔中恢復100%的水印信息。這表明該技術對格式攻擊具有很強的魯棒性。格式化攻擊無法中斷或破壞水印。這些攻擊包括字體顏色、字體系列、字體大小、文本背景顏色、行距和更改大小寫。如圖11所示，計算了所提出的算法結果，結果表明該算法對格式攻擊具有魯棒性，檢測精度爲99.9%。將提出的算法結果與已有的算法進行了比較。

四、總結

針對智能城市中數字內容的認證問題，提出了一種魯棒的安全水印算法。將所提出的技術的性能與先前的技術進行比較和驗證，以確定不可感知性、安全性、健壯性和容量。該領域已經提出了一些技術，但仍需要一種適用於雲、物聯網設備和智能城市的技術。實驗表明，該算法具有很強的不可見性，相似度達到99.99左右。該算法在應用了剪切、複製、粘貼、字體大小、字體顏色和對齊等格式攻擊後，證明了算法的魯棒性，並能容忍大多數可能的攻擊，水印提取準確率高。與以往的技術相比，該算法的容量也有所提高。在雲計算環境下，該技術給出了與智能城市相同的結果，保證了文本文檔的安全性。今後，本文提出的解決方案將擴展到印刷文本文檔的版權保護。

論文筆記：Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis

論文筆記：Offline Time-Stamping Using TPM and Its Java Library

C++筆記：C++標準庫中各種數據結構的用法（棧、向量、字典、集合）

論文筆記：Augmented Variational Autoencoders for Collaborative Filtering with Auxiliary Information

論文筆記：Collaborative Filtering for Implicit Feedback Datasets

論文筆記：Social Collaborative Filtering Ensemble

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結