日本語のエンコード方式
日本語のエンコード方式(エンコード=符号化。ようするに、
コンピュータ内部でどうやって日本語を表現するかということ。
人間にとっては暗号化みたいなもの。デコードはその反対)には、
次の3種類の方式があります。
- JIS
- 漢字開始/終了コードを使う事で、2バイトのうち7ビットずつ
で日本語1文字を表現する方式。古いコンピュータのソフトは8ビッ
ト目を無条件に切り捨てることがあったので、インターネットで
使うには一番安全だったらしい。漢字開始/終了コードのせいで、
全角文字と半角(ASCII文字)を交互に使うような文章を書くと
面白いように容量を喰う。
- シフトJIS
- JISコードの変形版で、非ASCII文字の領域に無理矢理移動
することで漢字開始/終了コードを不要にした。主にDOSや
Windowsで使われている。もちろん、2バイトで1文字。風の
噂によると、Macもこの方式らしい。
- 日本語EUC
- シフトJIS同様、漢字開始/終了コードを必要としない。
やっぱり2バイトで1文字だが、日本語に対応していない
UNIXシステムでもとりあえず邪魔にならない(コンパイル
でエラーがでない)という特徴をもつ。もちろん、
表示するためには日本語に対応している必要がある。
- ASCII文字(非漢字)
- 日本語ではないが、説明上必要なので触れておく。
ようするに、アルファベットと数字、それに若干の
記号のこと。キートップのアルファベットと同じ
位置に書かれているものはとりあえずASCII文字
である。アメリカの工業規格のANSIあたりで定義
されているはず。
- unicode
-
嫌いだし、まだ普段はお目にかからないので取り上げる
気は無いかと思ったのだが、「Javaはunicodeだよ〜ん」
という話を思い出してしまったので一応触れておく。
世界中の文字をたった16bitsで表現してしまおう
という、無謀な計画に基づいて開発されたコード体系。
漢字の部分はめちゃくちゃで、日本語・中国語・韓国語
で形の似ている漢字は一つにまとめてしまえという
乱暴な方法がとられている。当然、日本は最後まで
反対していたのだが、中国・韓国が妥協してしまった
こともあり国際規格として採用されてしまった。実は、
既に破綻しているらしい。(あたりまえだ)
「インターネットにおける日本語」に戻る