Como usar combinável para melhorar o desempenho

Este exemplo mostra como usar a classe concurrency::combinable para calcular a soma dos números em um objeto std::array que são primos. A classe combinable melhora o desempenho eliminando o estado compartilhado.

Dica

Em alguns casos, o mapa paralelo (simultaneidade::p arallel_transform) e a redução (simultaneidade:: parallel_reduce) podem fornecer melhorias de desempenho em relação a combinable. Para um exemplo que usa operações de mapeamento e redução para produzir os mesmos resultados deste exemplo, confira Algoritmos Paralelos.

Exemplo – acumular

O exemplo a seguir usa a função std::accumulate para calcular a soma dos elementos em uma matriz que são primos. Neste exemplo, a é um objeto array e a função is_prime determina se seu valor de entrada é primo.

prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
   return acc + (is_prime(i) ? i : 0);
});

Exemplo – parallel_for_each

O exemplo a seguir mostra um modo ingênuo de paralelizar o exemplo anterior. Este exemplo usa o algoritmo concurrency::p arallel_for_each para processar a matriz em paralelo e um objeto concurrency::critical_section para sincronizar o acesso à variável prime_sum. Este exemplo não é dimensionado porque cada thread deve aguardar a disponibilidade do recurso compartilhado.

critical_section cs;
prime_sum = 0;
parallel_for_each(begin(a), end(a), [&](int i) {
   cs.lock();
   prime_sum += (is_prime(i) ? i : 0);
   cs.unlock();
});

Exemplo – combinável

O exemplo a seguir usa um objeto combinable para melhorar o desempenho do exemplo anterior. Este exemplo elimina a necessidade de objetos de sincronização; ele é dimensionado porque o objeto combinable permite que cada thread execute sua tarefa de modo independente.

Um objeto combinable normalmente é usado em duas etapas. Primeiro, produza uma série de cálculos refinados executando o trabalho em paralelo. Em seguida, combine (ou reduza) as computações em um resultado final. Este exemplo usa o método local concurrency::combinable::local para obter uma referência à soma local. Em seguida, ele usa o método concurrency::combinable::combine e um objeto std::p lus para combinar as computações locais com o resultado final.

combinable<int> sum;
parallel_for_each(begin(a), end(a), [&](int i) {
   sum.local() += (is_prime(i) ? i : 0);
});
prime_sum = sum.combine(plus<int>());

Exemplo – serial e paralelo

O exemplo completo a seguir calcula a soma de números primos em série e em paralelo. O exemplo imprime no console o tempo necessário para executar ambas as computações.

// parallel-sum-of-primes.cpp
// compile with: /EHsc
#include <windows.h>
#include <ppl.h>
#include <array>
#include <numeric>
#include <iostream>

using namespace concurrency;
using namespace std;

// Calls the provided work function and returns the number of milliseconds 
// that it takes to call that function.
template <class Function>
__int64 time_call(Function&& f)
{
   __int64 begin = GetTickCount();
   f();
   return GetTickCount() - begin;
}

// Determines whether the input value is prime.
bool is_prime(int n)
{
   if (n < 2)
      return false;
   for (int i = 2; i < n; ++i)
   {
      if ((n % i) == 0)
         return false;
   }
   return true;
}

int wmain()
{   
   // Create an array object that contains 200000 integers.
   array<int, 200000> a;

   // Initialize the array such that a[i] == i.
   iota(begin(a), end(a), 0);

   int prime_sum;
   __int64 elapsed;

   // Compute the sum of the numbers in the array that are prime.
   elapsed = time_call([&] {
      prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
         return acc + (is_prime(i) ? i : 0);
      });
   });   
   wcout << prime_sum << endl;   
   wcout << L"serial time: " << elapsed << L" ms" << endl << endl;

   // Now perform the same task in parallel.
   elapsed = time_call([&] {
      combinable<int> sum;
      parallel_for_each(begin(a), end(a), [&](int i) {
         sum.local() += (is_prime(i) ? i : 0);
      });
      prime_sum = sum.combine(plus<int>());
   });
   wcout << prime_sum << endl;
   wcout << L"parallel time: " << elapsed << L" ms" << endl << endl;
}

A saída de exemplo a seguir é para um computador que tem quatro processadores.

1709600813
serial time: 6178 ms

1709600813
parallel time: 1638 ms

Compilando o código

Para compilar o código, copie-o e cole-o em um projeto do Visual Studio, ou cole-o em um arquivo chamado parallel-sum-of-primes.cpp e execute o seguinte comando em uma janela do Prompt de comando do Visual Studio.

cl.exe /EHsc parallel-sum-of-primes.cpp

Programação robusta

Para um exemplo que usa operações de mapeamento e redução para produzir os mesmos resultados, confira Algoritmos Paralelos.

Confira também

Contêineres e objetos em paralelo
Classe combinable
Classe critical_section