技術分析：D&G 創始人真被盜號了嗎？

意大利奢侈品牌 Dolce & Gabbana（杜嘉班納）的創始人一番腦殘的侮辱性言論暴露了自己狂妄傲慢的齷齪內心，也讓其品牌爲此付出了代價：上海大秀取消、代言人解約、電商全線下架。

事情的大致流程是：D&G 爲籌備上海大秀髮布了幾支宣傳片，其中有一個華裔模特用筷子吃意大利菜的視頻，從內容到風格讓很多觀者覺得反感。於是後來這個視頻就被下線了。如果事情到此爲止，充其量也只能算上“涉嫌”和“爭議”。但後來其創始人在 Instagram 對網友發泄不滿，放言說要是按他的想法就“堅決不刪視頻”，並且要在以後的所有國際採訪中說中國是“country of ?????”。這顯然就不是對不同文化的理解差異了吧？

關於此事的評論已經鋪天蓋地，不差我這一份觀點。不過我想來談個細節：事件最初曝光時，當事人 Stefano Gabbana 辯解說自己是被盜號了。雖然這個理由在現在看來是非常敷衍，但我當時確實想了下，是否有這樣的可能性存在呢？聯想到之前在《紐約時報》上爆料特朗普的匿名匿名文章，有程序員將文章中的內容和特朗普內閣成員的 Twitter 內容進行相關性分析併發布在 Github 上。那有沒有可能將此段對話與 Gabbana 日常言論作對比，分析其相關性呢？

於是我先後嘗試了 3 種相關性比較方法。但很遺憾，結果不能說不好，只能說……emmmm……這是一門玄學。因爲現有的文本相關度或相似性分析大都是基於語義的。也就是說，A 和 B 表達同一件事的相似度，很可能大於 A 本人表達兩件不同的事情。以至於我覺得，關於紐約時報匿名文章的分析也可能存在類似情況：副總統的相關性最高，或許主要是因爲其平常言論涉及的話題和文章更接近。而在這件事上，藉以判斷到底是不是一個人，就不太靠譜了。再加上 Gabbana 之前的發佈和此番對話都很短，樣本量非常小，幾乎沒有可參考性。

不過我後來去他的 Instagram 上翻了一下，依然發現一些蛛絲馬跡，值得分析一波：

1. 單引號

有一個漢語中沒有但英語中很常見符號：'（單引號），比如 I'm Crossin. 但 Gabbana 在 ig 上的發文中，其實用的不是最常見的英文半角單引號，而是一個 unicode 字符 ’。一般人可能不注意，但我對這個再熟悉不過了，因爲有無數的 Python 初學者在最開始的代碼中就因爲沒有用英文半角引號而報錯！

但巧的是，曝光出的對話裏，用的也是這個特殊的單引號。而聲稱同時被盜號的 D&G 官方賬號就沒有這個習慣。

2. 標點習慣

我抓下了 Gabbana 最近的 30 條 ig 推文，發現他發文喜歡使用連續的 3~4 個感嘆號，30 條中有 8 處。而在曝光對話中，也有 4 次連續感嘆號和 4 次連續問號。

另外，他也喜歡用 ... 的省略號，而且和很多人會固定用 3 個點不同，他數量不定且一般在 4 個及以上的點，30 條中有 4 處，只有一處是 3 個點。對話中有一處是 3 個點，兩處 4 個點。

還有就是，很少有人會在標點之前空格。但在他的對話和推文中也都偶有發生。這些都是打字習慣和輸入法所決定的，如果換了人，甚至換了手機，都有可能不一樣。

3. 連續表情

看下面這張彙總圖，這太明顯了：此人極度喜歡用 emoji 表情，用連續的表情，而且對❤️情有獨鍾。

而此次最可恥的一句話，也恰好符合這個風格！

而對於無此習慣的人來說，讓你馬上打這個表情出來，你都未必能找到。

4. 結尾

有人喜歡發文結尾加上句號，哪怕只有一個詞。比如他們的官方賬號：

而 Gabbana 不是此類。對話和 30 條推文中，僅有一條是 . 結尾的。相反最近的盜號聲明和致歉聲明，均以 . 結尾，沒有表情和感嘆號。反倒不符合他一貫的行文習慣……

這又是爲啥呢？按他習慣難道不應該是：

My Instagram account has been hacked !!!!!

It’s NOT ME !!!!! I love China and the Chinese Culture ❤️❤️❤️❤️❤️❤️

雖然從以上這幾點細節，並不能實錘說，Gabbana 一定沒有盜號。但至少可以說，這些對話中並沒有表現出與他以往行文風格很不符的地方。就算真的是被盜，那這黑客也真的是高手，不但技術好，而且還這麼花心思去模仿 .... 佩服佩服 !!!!!!

話說回來，我這也是多此一舉。因爲盜沒盜號，Instagram 官方從登錄記錄一眼就能看出來。之前官方就曾爲美國女歌手賽琳娜·戈麥斯（Selena Gomez）發表過聲明證明其賬號被盜。真的被盜了，是很容易證實的。然而 D&G 兩位創始人在所謂的“道歉”視頻中都閉口不提之前所謂的盜號一說，想必大家也都心知肚明瞭。

文化上存在差異，這是很正常的事情，但這不是某些人狂妄和傲慢的藉口。有錯就要認，捱打要立正。別又想那啥，又想那啥。瞧不起別人的人，最終也會被別人瞧不起。

雖然我本來就沒買過 D&G（因爲他家也沒有格子襯衫和雙肩包），這次之後就連以後光顧可能性也不存在了。拜拜！

PS：

最後提下，前面說到文本相關性比較，主要是基於 TF-IDF 算法。這個阮一峯曾經寫過一個系列：

TF-IDF與餘弦相似性的應用

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

我分別嘗試了 Python 的 gensim 庫（gensim.models.TfidfModel）和 sklearn 庫裏的相關方法（sklearn.feature_extraction.text.TfidfVectorizer）。雖然這次沒用上，但回頭也可以做個案例來介紹下。

另外過程中我還找到了另一個東西：百度 AI 開放平臺上的“短文本相似度接口”。除此之外還有不少有意思的接口，感覺又有東西可以玩了

PPS：

昨天發佈了一篇關於編程教室免費招收線下實訓生的說明。有興趣的同學可以翻下昨天的文章瞭解一下。

歡迎你來跟我們一起走上編程之路。

技術分析：D&G 創始人真被盜號了嗎？

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

從數據上看：誰纔是漫威的絕對C位

[數讀]從開戶數看這一波牛市

2018電影票房分析-誰纔是票房之王

北京全年天氣狀況分析

這可能是我用過最“強大”的API：Marvel API

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

技術分析：D&amp;G 創始人真被盜號了嗎？

技術分析：D&G 創始人真被盜號了嗎？