日本語のエンコード方式


 日本語のエンコード方式(エンコード=符号化。ようするに、 コンピュータ内部でどうやって日本語を表現するかということ。 人間にとっては暗号化みたいなもの。デコードはその反対)には、 次の3種類の方式があります。

JIS
漢字開始/終了コードを使う事で、2バイトのうち7ビットずつ で日本語1文字を表現する方式。古いコンピュータのソフトは8ビッ ト目を無条件に切り捨てることがあったので、インターネットで 使うには一番安全だったらしい。漢字開始/終了コードのせいで、 全角文字と半角(ASCII文字)を交互に使うような文章を書くと 面白いように容量を喰う。
シフトJIS
JISコードの変形版で、非ASCII文字の領域に無理矢理移動 することで漢字開始/終了コードを不要にした。主にDOSや Windowsで使われている。もちろん、2バイトで1文字。風の 噂によると、Macもこの方式らしい。
日本語EUC
シフトJIS同様、漢字開始/終了コードを必要としない。 やっぱり2バイトで1文字だが、日本語に対応していない UNIXシステムでもとりあえず邪魔にならない(コンパイル でエラーがでない)という特徴をもつ。もちろん、 表示するためには日本語に対応している必要がある。
ASCII文字(非漢字)
日本語ではないが、説明上必要なので触れておく。 ようするに、アルファベットと数字、それに若干の 記号のこと。キートップのアルファベットと同じ 位置に書かれているものはとりあえずASCII文字 である。アメリカの工業規格のANSIあたりで定義 されているはず。
unicode
嫌いだし、まだ普段はお目にかからないので取り上げる 気は無いかと思ったのだが、「Javaはunicodeだよ〜ん」 という話を思い出してしまったので一応触れておく。
世界中の文字をたった16bitsで表現してしまおう という、無謀な計画に基づいて開発されたコード体系。 漢字の部分はめちゃくちゃで、日本語・中国語・韓国語 で形の似ている漢字は一つにまとめてしまえという 乱暴な方法がとられている。当然、日本は最後まで 反対していたのだが、中国・韓国が妥協してしまった こともあり国際規格として採用されてしまった。実は、 既に破綻しているらしい。(あたりまえだ)

「インターネットにおける日本語」に戻る