問題現場:
今天我編寫一個簡單的主題爬蟲,需要從文件愛你裏讀取主題字符串,然後對網頁中的錨文本匹配,比如主題詞s1是“黨”,錨文本s2是“全面從嚴治黨”,那麼s2包含主題詞。但是出現問題:s2.contains(s1) 返回結果是false。
問題分析過程:
既然不匹配,那麼打印兩個字符串看看,從控制檯上用肉眼觀查沒有發現特殊的異樣。
分析兩個字符串長度:s1.length()==2 。將其轉化爲字符數組,首個字符值是05279。
出現原因:
“WINDOWS自帶的記事本等軟件,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。它是一串隱藏的字符,用於讓記事本等編輯器識別這個文件是否以UTF-8編碼。 ”
我出現的原因是用Windows自帶的筆記本新建的文件,另存爲了UTF-8。當我改用Notepad,把格式轉換爲UTF-8無DOM格式後,問題就解決了。
總結:
這種問題多分析、多接觸就能解決了~