技術分析:D&G 創始人真被盜號了嗎?

意大利奢侈品牌 Dolce & Gabbana(杜嘉班納)的創始人一番腦殘的侮辱性言論暴露了自己狂妄傲慢的齷齪內心,也讓其品牌爲此付出了代價:上海大秀取消、代言人解約、電商全線下架。

事情的大致流程是:D&G 爲籌備上海大秀髮布了幾支宣傳片,其中有一個華裔模特用筷子吃意大利菜的視頻,從內容到風格讓很多觀者覺得反感。於是後來這個視頻就被下線了。如果事情到此爲止,充其量也只能算上“涉嫌”和“爭議”。但後來其創始人在 Instagram 對網友發泄不滿,放言說要是按他的想法就“堅決不刪視頻”,並且要在以後的所有國際採訪中說中國是“country of ?????”。這顯然就不是對不同文化的理解差異了吧?

關於此事的評論已經鋪天蓋地,不差我這一份觀點。不過我想來談個細節:事件最初曝光時,當事人 Stefano Gabbana 辯解說自己是被盜號了。雖然這個理由在現在看來是非常敷衍,但我當時確實想了下,是否有這樣的可能性存在呢?聯想到之前在《紐約時報》上爆料特朗普的匿名匿名文章,有程序員將文章中的內容和特朗普內閣成員的 Twitter 內容進行相關性分析併發布在 Github 上。那有沒有可能將此段對話與 Gabbana 日常言論作對比,分析其相關性呢?

於是我先後嘗試了 3 種相關性比較方法。但很遺憾,結果不能說不好,只能說……emmmm……這是一門玄學。因爲現有的文本相關度或相似性分析大都是基於語義的。也就是說,A 和 B 表達同一件事的相似度,很可能大於 A 本人表達兩件不同的事情。以至於我覺得,關於紐約時報匿名文章的分析也可能存在類似情況:副總統的相關性最高,或許主要是因爲其平常言論涉及的話題和文章更接近。而在這件事上,藉以判斷到底是不是一個人,就不太靠譜了。再加上 Gabbana 之前的發佈和此番對話都很短,樣本量非常小,幾乎沒有可參考性。

不過我後來去他的 Instagram 上翻了一下,依然發現一些蛛絲馬跡,值得分析一波:

1. 單引號

有一個漢語中沒有但英語中很常見符號:'(單引號),比如 I'm Crossin. 但 Gabbana 在 ig 上的發文中,其實用的不是最常見的英文半角單引號,而是一個 unicode 字符 。一般人可能不注意,但我對這個再熟悉不過了,因爲有無數的 Python 初學者在最開始的代碼中就因爲沒有用英文半角引號而報錯!

但巧的是,曝光出的對話裏,用的也是這個特殊的單引號。而聲稱同時被盜號的 D&G 官方賬號就沒有這個習慣。

2. 標點習慣

我抓下了 Gabbana 最近的 30 條 ig 推文,發現他發文喜歡使用連續的 3~4 個感嘆號30 條中有 8 處。而在曝光對話中,也有 4 次連續感嘆號和 4 次連續問號

另外,他也喜歡用 ... 的省略號,而且和很多人會固定用 3 個點不同,他數量不定且一般在 4 個及以上的點,30 條中有 4 處,只有一處是 3 個點。對話中有一處是 3 個點,兩處 4 個點。

還有就是,很少有人會在標點之前空格。但在他的對話和推文中也都偶有發生。這些都是打字習慣和輸入法所決定的,如果換了人,甚至換了手機,都有可能不一樣。

3. 連續表情

看下面這張彙總圖,這太明顯了:此人極度喜歡用 emoji 表情,用連續的表情,而且對❤️情有獨鍾

而此次最可恥的一句話,也恰好符合這個風格!

而對於無此習慣的人來說,讓你馬上打這個表情出來,你都未必能找到。

4. 結尾

有人喜歡發文結尾加上句號,哪怕只有一個詞。比如他們的官方賬號:

而 Gabbana 不是此類。對話和 30 條推文中,僅有一條是 . 結尾的。相反最近的盜號聲明和致歉聲明,均以 . 結尾,沒有表情和感嘆號。反倒不符合他一貫的行文習慣……

這又是爲啥呢?按他習慣難道不應該是:

My Instagram account has been hacked !!!!!

It’s NOT ME !!!!! I love China and the Chinese Culture ❤️❤️❤️❤️❤️❤️

雖然從以上這幾點細節,並不能實錘說,Gabbana 一定沒有盜號。但至少可以說,這些對話中並沒有表現出與他以往行文風格很不符的地方。就算真的是被盜,那這黑客也真的是高手,不但技術好,而且還這麼花心思去模仿 .... 佩服佩服 !!!!!!

話說回來,我這也是多此一舉。因爲盜沒盜號,Instagram 官方從登錄記錄一眼就能看出來。之前官方就曾爲美國女歌手賽琳娜·戈麥斯(Selena Gomez)發表過聲明證明其賬號被盜。真的被盜了,是很容易證實的。然而 D&G 兩位創始人在所謂的“道歉”視頻中都閉口不提之前所謂的盜號一說,想必大家也都心知肚明瞭。

文化上存在差異,這是很正常的事情,但這不是某些人狂妄和傲慢的藉口。有錯就要認,捱打要立正。別又想那啥,又想那啥。瞧不起別人的人,最終也會被別人瞧不起。

雖然我本來就沒買過 D&G(因爲他家也沒有格子襯衫和雙肩包),這次之後就連以後光顧可能性也不存在了。拜拜!


PS:

最後提下,前面說到文本相關性比較,主要是基於 TF-IDF 算法。這個阮一峯曾經寫過一個系列:

TF-IDF與餘弦相似性的應用

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

我分別嘗試了 Python 的 gensim 庫(gensim.models.TfidfModel)和 sklearn 庫裏的相關方法(sklearn.feature_extraction.text.TfidfVectorizer)。雖然這次沒用上,但回頭也可以做個案例來介紹下。

另外過程中我還找到了另一個東西:百度 AI 開放平臺上的“短文本相似度接口”。除此之外還有不少有意思的接口,感覺又有東西可以玩了


PPS:

昨天發佈了一篇關於編程教室免費招收線下實訓生的說明。有興趣的同學可以翻下昨天的文章瞭解一下。

歡迎你來跟我們一起走上編程之路。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章