字符串處理中的錯誤：05279

原創

想改名的小雄鹿

2020-06-23 04:16

問題現場：

今天我編寫一個簡單的主題爬蟲，需要從文件愛你裏讀取主題字符串，然後對網頁中的錨文本匹配，比如主題詞s1是“黨”，錨文本s2是“全面從嚴治黨”，那麼s2包含主題詞。但是出現問題：s2.contains(s1) 返回結果是false。

問題分析過程：

既然不匹配，那麼打印兩個字符串看看，從控制檯上用肉眼觀查沒有發現特殊的異樣。

分析兩個字符串長度：s1.length()==2 。將其轉化爲字符數組，首個字符值是05279。

出現原因：

“WINDOWS自帶的記事本等軟件，在保存一個以UTF-8編碼的文件時，會在文件開始的地方插入三個不可見的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隱藏的字符，用於讓記事本等編輯器識別這個文件是否以UTF-8編碼。 ”

我出現的原因是用Windows自帶的筆記本新建的文件，另存爲了UTF-8。當我改用Notepad，把格式轉換爲UTF-8無DOM格式後，問題就解決了。

總結：

這種問題多分析、多接觸就能解決了~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

How To Use Bill Of Material Business Object API - An Example (文檔 ID 136099.1)

摘自ONT: https://support.oracle.com/epmos/faces/DocumentDisplay?_afrLoop=162152740141201&parent=DOCUMENT&sourceId=136095.

2020-07-03 19:41:47

Window-history對象

history對象包含用戶（在瀏覽器窗口中）訪問過的 URL。 History 對象是 window 對象的一部分，可通過 window.history 屬性對其進行訪問。注意：沒有應用於 History 對象的公開標準，不過

zzzzzzz周绍辉

2020-06-21 06:46:26

如何利用Java高效讀取大文件

在內存中讀取讀取文件行的標準方式是在內存中讀取，Guava 和Apache Commons IO都提供瞭如下所示快速讀取文件行的方法： Files.readLines(new File(path), Charsets.UTF_

2020-07-02 12:54:12

開發過程中文件的讀寫

信息讀取： private String getfileMessage(int position) { String info = null;try {File file = new File(getExternalFilesDir(nu

2020-06-30 12:58:19

java內存映射讀取管道文件

1.java中的常見的文件讀寫使用byte，按照字節讀取使用character，按照字符讀取使用reader，按照行讀取使用buffer，緩存讀取使用channel，通道讀取使用內存映射，讀取文件執行效率也是一次升高，下

2020-06-24 14:40:52

【Python打卡2019】20190504之讀取存儲密碼強度的文件內容

0.任務描述之前的程序中向文件當中寫入內容；此次實現從文件中讀取文件內容； 1.讀取文件函數 read()返回整個文件內容，以字符串形式； readlines()返回整個文件內容，以列表形式； readline()返回文件的下

是谁在学习

2020-06-22 14:23:22

Java工程與WEB工程讀取項目下文件的區別

Java工程讀取項目下文件，使用的是相對路徑，相對JVM路徑 private void readFile() throws FileNotFoundException, IOException { //獲取文件輸入流

2020-06-16 11:45:21

Python之文件處理之文件的讀取方法

文件的使用文件的類型：文件是數據的抽象和集合文件展現形態：文本文件、二進制文件文本文件：由單一特定編碼組成的文件，如UTF-8，由於存在編碼，也被看成存儲着的字符串二進制文件：直接由0、1組成，沒有同一字符編碼文件處理的

我们都是微粒

2020-06-16 07:08:06

BOM_創建更新物料清單腳本

以下是EBS創建和更新物料清單API案例，詳細代碼如下，僅供參考。 --以下腳本爲創建物料清單腳本 --transaction_type 爲CREATE 時創建 UPDATE 時候更新 --該腳本經過驗證 --added 2019-

OO好久不见OO

2020-07-08 06:34:47

HTML文件中文亂碼問題

在用sublime text 2編寫的html文件放在瀏覽器中打開時，經常會發生中文顯示亂碼問題。下面是我在網上找到的解決方案：首先聲明：這一方法前提是sublime text 2的安裝路徑沒有中文字符，且系統路徑的%username

2020-07-06 10:42:31

Using Oracle Bill of Material Business Object Using API (文檔 ID 136095.1)

摘自ONT：https://support.oracle.com/epmos/faces/DocumentDisplay?_afrLoop=161794373410060&id=136095.1&displayIndex=9&_afrWi

2020-07-03 19:41:47

BOM(Byte Order Mark)

BOM,Byte Order Mark的簡稱,字節順序標記,是位於碼點U+FEFF的統一碼字符的名稱.當以UTF-16或UTF-32來將UCS/統一碼字符所組成的字符串編碼時,這個字符用來標示其字節序.它通常被用來當作標示文件是以UTF-

2020-06-25 03:44:02

JavaScript-4.5-BOM 與 DOM-案例

JavaScript-4.5-BOM 與 DOM-案例案例一：簡單的留言板案例一：簡單的留言板輸入暱稱和評論內容，單擊“提交內容”按鈕，可以將最新的評論插入到已有評論的下方暱稱和評論內容爲空時，不能提交提交後獲取當前時

2020-06-25 02:34:32

JS DOM BOM學習筆記

JS DOM BOM 學習筆記本文根據B站pink老師視頻整理，供複習參考持續更新中：

2020-06-19 08:04:04

【JavaScript】BOM

BOM(瀏覽器對象模型) 1、window對象 BOM對象的核心是window，他表示瀏覽器的一個實例。window對象既是通過JavaScript訪問瀏覽器窗口的一個接口，有事ECMAScript規定的Global對象。（1）

2020-06-15 07:56:05

24小時熱門文章

最新文章

最新評論文章