日本語のエンコード方式

　日本語のエンコード方式（エンコード＝符号化。ようするに、コンピュータ内部でどうやって日本語を表現するかということ。人間にとっては暗号化みたいなもの。デコードはその反対）には、次の３種類の方式があります。

JIS: 漢字開始／終了コードを使う事で、2バイトのうち7ビットずつで日本語1文字を表現する方式。古いコンピュータのソフトは8ビット目を無条件に切り捨てることがあったので、インターネットで使うには一番安全だったらしい。漢字開始／終了コードのせいで、全角文字と半角(ASCII文字)を交互に使うような文章を書くと面白いように容量を喰う。
シフトJIS: JISコードの変形版で、非ASCII文字の領域に無理矢理移動することで漢字開始／終了コードを不要にした。主にDOSや Windowsで使われている。もちろん、2バイトで1文字。風の噂によると、Macもこの方式らしい。
日本語EUC: シフトJIS同様、漢字開始／終了コードを必要としない。やっぱり2バイトで1文字だが、日本語に対応していない UNIXシステムでもとりあえず邪魔にならない(コンパイルでエラーがでない)という特徴をもつ。もちろん、表示するためには日本語に対応している必要がある。
ASCII文字(非漢字): 日本語ではないが、説明上必要なので触れておく。ようするに、アルファベットと数字、それに若干の記号のこと。キートップのアルファベットと同じ位置に書かれているものはとりあえずASCII文字である。アメリカの工業規格のANSIあたりで定義されているはず。
unicode: 嫌いだし、まだ普段はお目にかからないので取り上げる気は無いかと思ったのだが、「Javaはunicodeだよ～ん」という話を思い出してしまったので一応触れておく。
世界中の文字をたった16bitsで表現してしまおうという、無謀な計画に基づいて開発されたコード体系。漢字の部分はめちゃくちゃで、日本語・中国語・韓国語で形の似ている漢字は一つにまとめてしまえという乱暴な方法がとられている。当然、日本は最後まで反対していたのだが、中国・韓国が妥協してしまったこともあり国際規格として採用されてしまった。実は、既に破綻しているらしい。(あたりまえだ)

「インターネットにおける日本語」に戻る