archived-doc-ja/reference/mbstring/encodings.xml

<?xml version="1.0" encoding="utf-8"?>
<!-- $Revision$ -->
<!-- EN-Revision: a9ada9d6f9b5504aca3815eed58aa5d499e03eab Maintainer: hirokawa Status: ready -->
<!-- CREDITS: takagi -->
 <chapter xml:id="mbstring.encodings" xmlns="http://docbook.org/ns/docbook" xmlns:xlink="http://www.w3.org/1999/xlink">
 <title>サポートされるエンコーディングの概要</title>
 <segmentedlist>
  <title>サポートされるエンコーディングの概要</title>
  <segtitle>IANA 文字セット登録名</segtitle>
  <segtitle>依存する文字集合</segtitle>
  <segtitle>説明</segtitle>
  <segtitle>注記</segtitle>
  <seglistitem>
   <seg>ISO-10646-UCS-4</seg>
   <seg>ISO 10646</seg>
   <seg>
    31 ビットコード空間を使用するユニバーサル文字セットで、
    ISO/IEC 10646 によって UCS-4 として標準化されています。
    最新版の Unicode コードマップと連動しています。
   </seg>
   <seg>
    この名前をエンコーディング変換の際に使用すると、
    先頭の BOM (バイトオーダーマーク)
    にもとづいてそれ以降のバイト列のエンディアンを識別します。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>ISO-10646-UCS-4</seg>
   <seg>UCS-4</seg>
   <seg>
    上を参照ください。
   </seg>
   <seg>
    <literal>UCS-4</literal> とは対照的に、
    文字列が常にビッグエンディアン形式とみなされます。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>ISO-10646-UCS-4</seg>
   <seg>UCS-4</seg>
   <seg>
    上を参照ください。
   </seg>
   <seg>
    <literal>UCS-4</literal> とは対照的に、
    文字列が常にリトルエンディアン形式とみなされます。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>ISO-10646-UCS-2</seg>
   <seg>UCS-2</seg>
   <seg>
    16 ビットコード空間を使用するユニバーサル文字セットで、
    ISO/IEC 10646 によって UCS-2 として標準化されています。
    最新版の Unicode コードマップと連動しています。
   </seg>
   <seg>
    この名前をエンコーディング変換の際に使用すると、
    先頭の BOM (バイトオーダーマーク)
    にもとづいてそれ以降のバイト列のエンディアンを識別します。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>ISO-10646-UCS-2</seg>
   <seg>UCS-2</seg>
   <seg>
    上を参照ください。
   </seg>
   <seg>
    <literal>UCS-2</literal> とは対照的に、
    文字列が常にビッグエンディアン形式とみなされます。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>ISO-10646-UCS-2</seg>
   <seg>UCS-2</seg>
   <seg>
    上を参照ください。
   </seg>
   <seg>
    <literal>UCS-2</literal> とは対照的に、
    文字列が常にリトルエンディアン形式とみなされます。
   </seg>
  </seglistitem>
  <seglistitem>
   <seg>UTF-32</seg>
   <seg>Unicode</seg>
   <seg>
    32 ビット幅の Unicode 変換フォーマットで、
    そのエンコーディング空間は Unicode のコードセット標準を参照します。
    このエンコーディング体系は UCS-4 とは異なります。
    なぜなら、Unicode のコード空間は 21 ビットまでに制限されるからです。
   </seg>
   <seg>
    この名前をエンコーディング変換の際に使用すると、
    先頭の BOM (バイトオーダーマーク)
    にもとづいてそれ以降のバイト列のエンディアンを識別します。
   </seg>
  </seglistitem>
   <seglistitem>
    <seg>UTF-32BE</seg>
    <seg>Unicode</seg>
    <seg>上を参照ください。</seg>
    <seg>
     <literal>UTF-32</literal> とは対照的に、
     文字列が常にビッグエンディアン形式とみなされます。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-32LE</seg>
    <seg>Unicode</seg>
    <seg>上を参照ください。</seg>
    <seg>
     <literal>UTF-32</literal> とは対照的に、
     文字列が常にリトルエンディアン形式とみなされます。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-16</seg>
    <seg>Unicode</seg>
    <seg>
     16 ビット幅の Unicode 変換フォーマットです。
     注意すべき点は、UTF-16 の仕様が UCS-2 とは異なることです。
     なぜなら、Unicode 2.0 より導入されたサロゲート機能により、
     UTF-16 は現在 21 ビットコード空間を参照しているからです。
    </seg>
    <seg>
     この名前をエンコーディング変換の際に使用すると、
     先頭の BOM (バイトオーダーマーク)
     にもとづいてそれ以降のバイト列のエンディアンを識別します。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-16BE</seg>
    <seg>Unicode</seg>
    <seg>
     上を参照ください。
    </seg>
    <seg>
     <literal>UTF-16</literal> とは対照的に、
     文字列が常にビッグエンディアン形式とみなされます。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-16LE</seg>
    <seg>Unicode</seg>
    <seg>
     上を参照ください。
    </seg>
    <seg>
     <literal>UTF-16</literal> とは対照的に、
     文字列が常にリトルエンディアン形式とみなされます。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-8</seg>
    <seg>Unicode / UCS</seg>
    <seg>
     8 ビット幅の Unicode 変換フォーマットです。
    </seg>
    <seg>none</seg>
   </seglistitem>
   <seglistitem>
    <seg>UTF-7</seg>
    <seg>Unicode</seg>
    <seg>
     メールで安全に使用できる Unicode 変換フォーマットです。
     <link xlink:href="&url.rfc;2152">RFC2152</link> で定義されています。
    </seg>
    <seg>none</seg>
   </seglistitem>
   <seglistitem>
    <seg>(none)</seg>
    <seg>Unicode</seg>
    <seg>
     UTF-7 の変化形です。
     <link xlink:href="&url.rfc;3501">IMAP プロトコル</link>
     での使用に特化しています。
    </seg>
    <seg>none</seg>
   </seglistitem>
   <seglistitem>
    <seg>
     US-ASCII (推奨される MIME 名) / iso-ir-6 / ANSI_X3.4-1986 /
     ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII
    </seg>
    <seg>ASCII / ISO 646</seg>
    <seg>
     American Standard Code for Information Interchange
     は、一般的に使用される 7 ビットエンコーディングです。
     国際標準規格 ISO 646 として標準化されています。
    </seg>
    <seg>(none)</seg>
   </seglistitem>
   <seglistitem>
    <seg>
     EUC-JP (推奨される MIME 名) /
     Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese
    </seg>
    <seg>
     US-ASCII / JIS X0201:1997 (半角カナの部分) /
     JIS X0208:1990 / JIS X0212:1990 を合成したもの
    </seg>
    <seg>
     この名前が Extended UNIX Code Packed Format for Japanese
     を短縮したものであることからわかるように、
     一般的に UNIX 系のプラットフォームで用いられます。
     もととなるエンコーディング方式である Extended UNIX Code
     は、ISO 2022 にもとづいて設計されています。
    </seg>
    <seg>
     EUC-JP が参照している文字セットは IBM932 / CP932 のものとは異なります。
     これらはそれぞれ OS/2R および MicrosoftR WindowsR
     で用いられています。これらのプラットフォームとの間で情報をやり取りする場合は、
     代わりに EUCJP-WIN を使用してください。
    </seg>
   </seglistitem>
   <seglistitem>
    <seg>Shift_JIS (推奨される MIME 名) / MS_Kanji / csShift_JIS</seg>
    <seg>JIS X0201:1997 / JIS X0208:1997 を合成したもの</seg>
    <seg>
     Shift_JIS が開発されたのは 80 年代初期です。
     当時は日本語ワープロが普及していたため、
     旧来のエンコーディング方式である JIS X 0201:1976
     との互換性を保つために開発されました。
     IANA の定義によると、Shift_JIS のコードセットは
     IBM932 / CP932 とは微妙に異なります。
     しかし、"SJIS" / "Shift_JIS" という名前は、
     これらのコードセットを表すものとしてしばしば誤用されています。
    </seg>
    <seg>CP932 コードマップを使用するには、代わりに SJIS-WIN を使用してください。</seg>
   </seglistitem>
   <seglistitem>
    <seg>(none)</seg>
    <seg>
     JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字
     を合成したもの
    </seg>
    <seg>
     この &quot;エンコーディング&quot; は EUC-JP
     と同じエンコーディング方式を使用しますが、
     もととなる文字セットが異なります。
     つまり、EUC-JP とは異なる文字に対応するコードポイントがあるということです。
    </seg>
    <seg>none</seg>
   </seglistitem>
   <seglistitem>
    <seg>Windows-31J / csWindows31J</seg>
    <seg>
     JIS X0201:1997 / JIS X0208:1997 / IBM 拡張文字 / NEC 拡張文字
     を合成したもの
    </seg>
    <seg>
     この &quot;エンコーディング&quot; は Shift_JIS
     と同じエンコーディング方式を使用しますが、
     もととなる文字セットが異なります。
     つまり、Shift_JIS とは異なる文字に対応するコードポイントがあるということです。
    </seg>
    <seg>(none)</seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-2022-JP (推奨される MIME 名) / csISO2022JP</seg>
    <seg>
     US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983
    </seg>
    <seg><link xlink:href="&url.rfc;1468">RFC1468</link></seg>
    <seg>(none)</seg>
   </seglistitem>
   <seglistitem>
    <seg>JIS</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-1</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-2</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-3</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-4</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-5</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-6</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-7</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-8</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-9</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-10</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-13</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-14</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-15</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-8859-16</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>byte2be</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>byte2le</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>byte4be</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>byte4le</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>BASE64</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>HTML-ENTITIES</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>7bit</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>8bit</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>EUC-CN</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>CP936</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>HZ</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>EUC-TW</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>CP950</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>BIG-5</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>EUC-KR</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>UHC (CP949)</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>ISO-2022-KR</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>Windows-1251 (CP1251)</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>Windows-1252 (CP1252)</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>CP866 (IBM866)</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>KOI8-R</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
   <seglistitem>
    <seg>KOI8-U</seg>
    <seg></seg>
    <seg></seg>
    <seg></seg>
   </seglistitem>
  </segmentedlist>
 </chapter>

<!-- Keep this comment at the end of the file
Local variables:
mode: sgml
sgml-omittag:t
sgml-shorttag:t
sgml-minimize-attributes:nil
sgml-always-quote-attributes:t
sgml-indent-step:1
sgml-indent-data:t
indent-tabs-mode:nil
sgml-parent-document:nil
sgml-default-dtd-file:"~/.phpdoc/manual.ced"
sgml-exposed-tags:nil
sgml-local-catalogs:nil
sgml-local-ecat-files:nil
End:

vim600: syn=xml fen fdm=syntax fdl=2 si
vim: et tw=78 syn=sgml
vi: ts=1 sw=1
-->