最近はそうでもないですが、メールやWebサイトでたまに文字化けしてしまうことがあります。
これは、複数存在する「文字コード」が保存時と読み取り時で異なる場合に発生する現象です。
たとえば、「あずまや」という文字列を任意の文字コードで保存し、別の文字コードで取り出すと以下のようになります。
読み取り側 | ||||
---|---|---|---|---|
Shift-JIS | UTF-8 | EUC-JP | ||
保 存 側 | Shift-JIS | あずまや | �����܂� | ?????��?? |
UTF-8 | 縺ゅ★縺セ繧 | あずまや | ?????障?? | |
EUC-JP | �����Ꮎ�� | �����ޤ� | あずまや |
特にWebサイトに多く見られるのが、「Shift-JIS」⇔「UTF-8」の文字化けの仕方でしょう。また、EUC-JPが絡む文字化けは特徴的です。
Webサイトでは<meta>タグのcharset属性で文字コードを指定することができますので、htmlファイルの保存時の文字コードと<meta>タグで指定された文字コードが正しく一致していれば、多くの場合で文字化けは発生しません。
逆に、コピー&ペーストでhtmlファイルを作成したために、<meta>タグへの指定と保存時の文字コードが不一致となれば、高い確率で文字化けが発生します。
このように、文字化けには法則性がありますので復旧することも不可能ではありません。
冒頭で紹介したサイトは、文字化けした文章を貼り付けて解析を行い、保存時の文字コードと読み取り時の文字コードを組み合わせて頑張って文章を復旧させてくれます。
表示時やコピペ時に情報が欠落してしまったりするので、完全な復旧というのは困難ですが、手探りよりははるかに手軽なサービスです。
文字化けに遭遇した場合は試してみてください。