アクセラレータおよび accelerator_view オブジェクトの使用

[アーティクル]
06/09/2015

accelerator クラスと accelerator_view クラスを使用して、C++ AMP コードを実行するためのデバイスまたはエミュレーターを指定できます。システムには、メモリの量、共有メモリサポート、デバッグサポート、または倍精度サポートによって異なる複数のデバイスまたはエミュレーターがある場合があります。 C++ Accelerated Massive Parallelism (C++ AMP) には、使用できるアクセラレータの調査、既定としての設定、parallel_for_each の複数の呼び出しのための複数の accelerator_views の指定、特別なデバッグタスクの実行のために使用できる API が用意されています。

既定のアクセラレータを使用する

C++ AMP ランタイムでは、特定のアクセラレータを選択するコードを記述しない限り、既定のアクセラレータが選択されます。ランタイムは次のように既定のアクセラレータを選択します。

アプリがデバッグモードで実行されている場合は、デバッグをサポートするアクセラレータ。
または、設定されている場合は、CPPAMP_DEFAULT_ACCELERATOR 環境変数で指定されるアクセラレータ。
または、エミュレートされていないデバイス。
または、使用できるメモリ量が最大のデバイス。
または、ディスプレイにアタッチされていないデバイス。

また、ランタイムは既定のアクセラレータとして access_type_auto の access_type を指定します。これは、サポートされていて、パフォーマンス特性 (帯域幅と待機時間) が専用の (共有されない) メモリと同じになることがわかっている場合には、既定のアクセラレータが共有メモリを使用することを意味します。

既定のアクセラレータを構築し、プロパティを調べることによって、既定のアクセラレータのプロパティを確認できます。次のコード例では、既定のアクセラレータのパス、アクセラレータメモリの量、共有メモリサポート、倍精度サポート、および制限された倍精度のサポートを出力します。

void default_properties() {
    accelerator default_acc;
    std::wcout << default_acc.device_path << "\n";
    std::wcout << default_acc.dedicated_memory << "\n";
    std::wcout << (accs[i].supports_cpu_shared_memory ? 
        "CPU shared memory: true" : "CPU shared memory: false") << "\n";
    std::wcout << (accs[i].supports_double_precision ? 
        "double precision: true" : "double precision: false") << "\n";
    std::wcout << (accs[i].supports_limited_double_precision ? 
        "limited double precision: true" : "limited double precision: false") << "\n";
}

CPPAMP_DEFAULT_ACCELERATOR 環境変数

CPPAMP_DEFAULT_ACCELERATOR 環境変数を設定して、既定のアクセラレータの accelerator::device_path を指定できます。パスはハードウェアに依存します。次のコードは、accelerator::get_all 関数を使用して、使用できるアクセラレータの一覧を取得し、各アクセラレータのパスと特性を表示します。

void list_all_accelerators()
{
    std::vector<accelerator> accs = accelerator::get_all();
    for (int i = 0; i < accs.size(); i++) {
        std::wcout << accs[i].device_path << "\n";
        std::wcout << accs[i].dedicated_memory << "\n";
        std::wcout << (accs[i].supports_cpu_shared_memory ? 
            "CPU shared memory: true" : "CPU shared memory: false") << "\n";
        std::wcout << (accs[i].supports_double_precision ? 
            "double precision: true" : "double precision: false") << "\n";
        std::wcout << (accs[i].supports_limited_double_precision ? 
            "limited double precision: true" : "limited double precision: false") << "\n";
    }
}

アクセラレータの選択

アクセラレータを選択するには、accelerator::get_all メソッドを使用して、使用できるアクセラレータの一覧を取得し、プロパティに基づいて 1 つを選択します。この例では、最も多くのメモリを持つアクセラレータを選択する方法を示しています。

void pick_with_most_memory()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator acc_chosen = accs[0];
    for (int i = 0; i < accs.size(); i++) {
        if (accs[i].dedicated_memory > acc_chosen.dedicated_memory) {
            acc_chosen = accs[i];
        }
    }

    std::wcout << "The accelerator with the most memory is "  
        << acc_chosen.device_path << "\n"
        << acc_chosen.dedicated_memory << ".\n";
}

注意

accelerator::get_all によって返されるアクセラレータの 1 つが、CPU アクセラレータです。CPU アクセラレータではコードを実行できません。CPU アクセラレータを除外するには、accelerator::get_all によって返されるアクセラレータの device_path プロパティの値を accelerator::cpu_accelerator の値と比較します。詳細については、この記事で後述する「特別なアクセラレータ」のセクションを参照してください。

共有メモリ

共有メモリは、CPU とアクセラレータの両方からアクセスできるメモリです。共有メモリの使用は CPU とアクセラレータ間でのデータのコピーによるオーバーヘッドを排除するか、大幅に低下させます。メモリは共有されますが、CPU とアクセラレータの両方から同時にアクセスすることはできず、同時にアクセスすると未定義の動作が発生します。アクセラレータが共有メモリをサポートする場合、アクセラレータプロパティ supports_cpu_shared_memory は true を返し、default_cpu_access_type プロパティは、accelerator に関連付けられた array、または accelerator にアクセスした array_view オブジェクトなどの、accelerator に割り当てられているメモリの既定値 access_type を取得します。

C++ AMP ランタイムは、各 accelerator に最適な既定の access_type を自動的に選択しますが、CPU からの読み込み、CPU からの書き込み、またはその両方が行われる場合、共有メモリのパフォーマンス特性 (帯域幅と待機時間) は専用 (共有されない) のアクセラレータメモリのパフォーマンス特性より悪い場合があります。共有メモリが CPU からの読み取りと書き込みの専用メモリと同様に使用される場合、ランタイムは既定値が access_type_read_write となり、それ以外の場合、ランタイムは保守的な既定値 access_type を選択し、計算のカーネルのメモリアクセスパターンが別の access_type を利用する場合は、アプリケーションがそれをオーバーライドできるようにします。

次のコード例では、既定のアクセラレータが共有メモリをサポートし、既定のアクセスの種類をオーバーライドして、そこから accelerator_view を作成するかどうかを確認する方法を説明します。

#include <amp.h>
#include <iostream>

using namespace Concurrency;

int main()
{
  accelerator acc = accelerator(accelerator::default_accelerator);

  // Early out if the default accelerator doesn’t support shared memory.
  if(!acc.supports_cpu_shared_memory)
  {
    std::cout << "The default accelerator does not support shared memory" << std::endl;
    return 1;
  }

  // Override the default CPU access type.
  acc.set_default_cpu_access_type(access_type_read_write);

  // Create an accelerator_view from the default accelerator. The
  // accelerator_view reflects the default_cpu_access_type of the
  // accelerator it’s associated with.
  accelerator_view acc_v = acc.default_view;
}

accelerator_view は、関連付けられた accelerator の default_cpu_access_type を常に反映し、その access_type をオーバーライドまたは変更するためのインターフェイスを提供しません。

既定のアクセラレータを変更する

accelerator::set_default メソッドを呼び出して、既定のアクセラレータを変更できます。アプリの実行ごとに既定のアクセラレータを 1 度だけ変更することができますが、コードが GPU で実行される前に変更する必要があります。 false を返すアクセラレータを変更するための後続の関数の呼び出し。 parallel_for_each の呼び出しに別のアクセラレータを使用する場合は、この記事の「複数のアクセラレータを使用する」のセクションを参照してください。次のコード例では、既定のアクセラレータをエミュレートおよびディスプレイへの接続が行われておらず、倍精度をサポートしているアクセラレータに設定します。

bool pick_accelerator()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator chosen_one;

    auto result = 
        std::find_if(accs.begin(), accs.end(), [] (const accelerator& acc)
    {
        return !acc.is_emulated && 
            acc.supports_double_precision && 
            !acc.has_display;
    });

    if (result != accs.end())
        chosen_one = *(result);

    std::wcout << chosen_one.description << std::endl;

    bool success = accelerator::set_default(chosen_one.device_path);
    return success;
}

複数のアクセラレータを使用する

アプリで複数のアクセラレータを使用するには、次の 2 つの方法があります。

parallel_for_each メソッドの呼び出しに accelerator_view オブジェクトを渡すことができます。
特定の accelerator_view オブジェクトを使用して array オブジェクトを構築することができます。 C+AMP ランタイムはラムダ式のキャプチャされた array オブジェクトから accelerator_view オブジェクトを選択します。

特別なアクセラレータ

3 つの特別なアクセラレータのデバイスパスは accelerator クラスのプロパティとして使用できます。

accelerator::direct3d_ref データメンバー: このシングルスレッドアクセラレータは、一般的なグラフィックスカードのエミュレートに CPU 上のソフトウェアを使用します。これはデバッグのために既定で使用されますが、ハードウェアアクセラレータよりも遅いため、稼働中には役に立ちません。また、DirectX SDK と Windows SDK でのみ使用が可能で、顧客のコンピューターにインストールされることはないと思われます。詳細については、「GPU コードのデバッグ」を参照してください。
accelerator::direct3d_warp データメンバー: このアクセラレータには、ストリーミング SIMD 拡張命令 (SSE) を使用するマルチコア CPU で C++ AMP コードを実行するためのフォールバックソリューションが用意されています。
accelerator::cpu_accelerator データメンバー: ステージング配列を設定するには、このアクセラレータを使用できます。これは C++ AMP コードを実行できません。詳細については、「Parallel Programming in Native Code blog (ネイティブコードでの並行プログラミングブログ) Staging Arrays in C++ AMP (C++ AMP のステージング環境の配列)」の投稿を参照してください。

相互運用性

C++ AMP ランタイムは、accelerator_view クラスと Direct3D ID3D11Device インターフェイス間の相互運用性をサポートします。 create_accelerator_view メソッドは IUnknown インターフェイスを受け取り、accelerator_view オブジェクトを返します。 get_device メソッドは accelerator_view オブジェクトを受け取り、IUknown インターフェイスを返します。

参照

その他の技術情報

C++ AMP (C++ Accelerated Massive Parallelism)

GPU コードのデバッグ

次の方法で共有