UTF-8文件BOM字符的檢查和處理(待整理)

/65279 は不正な文字です。

テーマ:Java

久々に Java のプログラムを作っていて、コンパイル時に以下のようなエラーに遭遇しました。


/65279 は不正な文字です。

大昔に同じエラーを見たことがあるような気がするのですが、すぐには思い出せません。


しかし、ネットで調べてみるとすぐに思い出しました。


Java のソースファイルは UTF-8 でエンコーディングしているのですが、これが BOM 付きの UTF-8 だと上記のエラーが発生するのです。



BOM とは Byte Order Mark の略で、2バイトで表される UTF-16 のエンディアン(上位バイトを先に書くか下位バイトを先に書くか)を識別するために文書の先頭に書き込む制御コードで、UTF-8 では本來必要のないものです。


Eclipse で Java のソースファイルを編集した場合には BOM は付きませんし、秀丸エディタで編集した場合でもBOM はオプション扱いです。



しかし、1つだけ落とし穴がありました。


それは Windws のメモ帳です。


メモ帳で編集するとなぜか勝手に BOM が付いてしまうのです。しかも BOM が付いていないファイルを編集して保存しても BOM が付いてしまうのです。


今回の場合は、たまたま元々あった BOM の付いていない UTF-8 の Java ソースファイルをメモ帳で編集してしまったがために上記のエラーに遭遇してしまったというわけです。



たまにしか Java を使わないので、この手のトラップに何度も引っかかってひまうのが情けないところです。

 

 

http://koti.mbnet.fi/akini/java/java_utf8_xml/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章