字符串處理中的錯誤:05279

問題現場:    

    今天我編寫一個簡單的主題爬蟲,需要從文件愛你裏讀取主題字符串,然後對網頁中的錨文本匹配,比如主題詞s1是“黨”,錨文本s2是“全面從嚴治黨”,那麼s2包含主題詞。但是出現問題:s2.contains(s1) 返回結果是false。

問題分析過程:

    既然不匹配,那麼打印兩個字符串看看,從控制檯上用肉眼觀查沒有發現特殊的異樣。

    分析兩個字符串長度:s1.length()==2 。將其轉化爲字符數組,首個字符值是05279。

出現原因:

   “WINDOWS自帶的記事本等軟件,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。它是一串隱藏的字符,用於讓記事本等編輯器識別這個文件是否以UTF-8編碼。 ”

    我出現的原因是用Windows自帶的筆記本新建的文件,另存爲了UTF-8。當我改用Notepad,把格式轉換爲UTF-8無DOM格式後,問題就解決了。


總結:

    這種問題多分析、多接觸就能解決了~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章