Unicode とマルチバイト文字セット (MBCS: Multibyte Character Set) のサポート

[アーティクル]
09/17/2008

更新 : 2007 年 11 月

国際化対応にするには巨大な文字セット (日本語、中国語などの文字セット) を扱う必要があります。これらの言語に対応するために MFC では巨大な文字セットを処理する 2 つの機能が用意されています。

Unicode
マルチバイト文字セット (MBCS)

MFC がサポートする Unicode 文字列

MFC 全般で、条件を指定することで Unicode 文字および文字列が利用できます。CString クラスでは Unicode がサポートされています。

メモ :
Unicode バージョンの MFC ライブラリは、カスタムインストール時に指定しない限り、ハードディスクにコピーされません。これ以外のインストールではコピーされません。MFC Unicode ファイルを使用せずに MFC Unicode アプリケーションをビルドまたは実行しようとすると、エラーが発生する場合があります。

Unicode バージョンの MFC ライブラリは、カスタムインストール時に指定しない限り、ハードディスクにコピーされません。これ以外のインストールではコピーされません。MFC Unicode ファイルを使用せずに MFC Unicode アプリケーションをビルドまたは実行しようとすると、エラーが発生する場合があります。

ハードディスクにファイルをコピーするには、セットアップを再実行し、[機能の追加と削除] をクリックします。[言語ツール]、[Visual C++]、[Visual C++ クラスおよびテンプレートライブラリ] をクリックし、[ATL MFC 共有ライブラリ Unicode] と [ATL MFC スタティックライブラリ Unicode] の両方を選択します。これで、以下のファイルがハードディスクドライブにコピーされます。

UAFXCW.LIB	UAFXCW.PDB	UAFXCWD.LIB	UAFXCWD.PDB
MFCxxU.LIB	MFCxxU.PDB	MFCxxU.DLL	MFCxxUD.LIB
MFCxxUD.PDB	MFCxxUD.DLL	MFCSxxU.LIB	MFCSxxU.PDB
MFCSxxUD.LIB	MFCSxxUD.PDB	MFCMxxU.LIB	MFCMxxU.PDB
MFCMxxU.DLL	MFCMxxUD.LIB	MFCMxxUD.PDB	MFCMxxUD.DLL

xx はファイルのバージョン番号を表します。たとえば、80 は Version 8.0 を表します。

CString は TCHAR 型によって構成されます。プログラムをビルドするときにシンボル _UNICODE を定義すると、TCHAR は wchar_t 型 (16 ビットコード) として定義されます。_UNICODE を定義しないと、char 型 (8 ビットコード) として定義されます。したがって、Unicode を使用するときは、CString オブジェクトを 16 ビット幅の文字で構成します。Unicode を使用しないときは、char 型文字で構成します。

アプリケーションを Unicode 対応にするには、次のことも行う必要があります。

条件によってリテラル文字列を Unicode に切り替えるときは _T マクロを使用します。
文字列を引数として渡すときは、その関数が文字列の長さを文字数とバイト数のどちらで数えるのかを注意してください。Unicode を使用するときは、文字数とバイト数の長さが異なります。
C ランタイムライブラリの文字列操作関数は Unicode 対応バージョンを使用してください。
文字および文字へのポインタには、以下の型を使用してください。
- TCHAR 通常は char 型にするデータ。
- LPTSTR 通常は char* 型にするデータ。
- LPCTSTR 通常は const char* 型にするデータ。CString の operator LPCTSTR によって CString と LPCTSTR の間の型変換が行われます。

CString のコンストラクタ、代入演算子、比較演算子は Unicode を適切に処理します。

Unicode プログラミングの関連情報については、「Unicode と MBCS」と「Unicode」を参照してください。「ランタイムライブラリリファレンス」では、文字列処理関数のすべてについて移植性が高いバージョンを定義しています。「国際化」を参照してください。

MFC がサポートする MBCS 文字列

MFC ではマルチバイト文字セット (MBCS) もサポートしています。サポートされているのは、2 バイト文字セット (DBCS: Double-Byte Character Sets) です。

DBCS では、1 文字は 1 バイトまたは 2 バイト幅です。2 バイト幅の文字では 1 バイト目が "先行バイト" になり、特定の範囲の文字を含むコードページを指定します。先行バイトと 2 バイト目の "後続バイト" を組み合わせると、そのコードが表す文字が決まります。

プログラムをビルドするときに _MBCS シンボルを定義すると、TCHAR 型 (CString はこの型に基づいて構成されています) は char 型に変換されます。_MBCS シンボルを定義したときは、CString 中のどのバイトが先行バイトであり、どのバイトが後続バイトであるかはプログラマが判定してください。この判定用の関数は C ランタイムライブラリで定義されています。

DBCS では、文字列の中に任意の ANSI の 1 バイト文字と 2 バイト文字を混在させることができます。したがって、DBCS では CString オブジェクトなどの文字列の解析時に特別な注意が必要です。

メモ :
MFC における Unicode 文字列のシリアル化は、Unicode 文字列と MBCS 文字列の両方について、どちらのバージョンのアプリケーションを使用しているのかを考慮せずに読み込むことができます。したがって、データファイルはアプリケーションの Unicode 版と MBCS 版の間で移植性があります。

CString のメンバ関数は、特別な "汎用テキスト" バージョンの C ランタイムライブラリ関数を使用します。つまり、 Unicode 対応の関数を使用します。たとえば、CString のメンバ関数が通常 strcmp を呼び出す場所では、代わりに "汎用テキスト" 関数 _tcscmp を呼び出します。シンボル _MBCS および _UNICODE が定義されているかどうかに応じて、_tcscmp は以下の関数呼び出しに変換されます。

_MBCS が定義されている場合	_mbscmp
_UNICODE が定義されている場合	wcscmp
どちらのシンボルも定義されていない場合	strcmp

メモ :
シンボル _MBCS と _UNICODE は相互に排他的です。

汎用テキスト関数が適切なバージョンに変換されるしくみについては、「ランタイムライブラリリファレンス」を参照してください。「国際化」を参照してください。

CString のメンバ関数の内部でも同様のバージョン変換が行われます。MBCS と Unicode 対応を維持するために、MFC では char の代わりに TCHAR、char* の代わりに LPTSTR、const char* の代わりに LPCTSTR を使用しています。これによって、該当するバージョンに正しく変換されます。

参照

その他の技術情報

文字列 (ATL/MFC)

次の方法で共有

Unicode とマルチバイト文字セット (MBCS: Multibyte Character Set) のサポート

MFC がサポートする Unicode 文字列

MFC がサポートする MBCS 文字列

参照

その他の技術情報

その他のリソース