Regras de ponto flutuante

Artigo
07/05/2024

O Direct3D dá suporte a várias representações de ponto flutuante. Todos os cálculos de ponto flutuante operam sob um subconjunto definido das regras de ponto flutuante de precisão única de 32 bits IEEE 754.

Regras de ponto flutuante de 32 bits

Existem dois conjuntos de regras: aquelas que estão em conformidade com o IEEE-754 e aquelas que se desviam do padrão.

Regras IEEE-754 honradas

Algumas dessas regras são uma única opção em que o IEEE-754 oferece opções.

Dividir por 0 produz +/- INF, exceto 0/0 que resulta em NaN.
log de (+/-) 0 produz -INF.

log de um valor negativo (diferente de -0) produz NaN.
A raiz quadrada recíproca (rsq) ou raiz quadrada (sqrt) de um número negativo produz NaN.

A exceção é -0; sqrt(-0) produz -0 e rsq(-0) produz -INF.
INF - INF = NaN
(+/-) INF / (+/-)INF = NaN
(+/-) INF * 0 = NaN
NaN (qualquer OP) qualquer valor = NaN
As comparações EQ, GT, GE, LT e LE, quando um ou ambos os operandos são NaN, retornam FALSE.
As comparações ignoram o sinal de 0 (portanto, +0 é igual a -0).
A comparação NE, quando um ou ambos os operandos são NaN, retorna TRUE.
As comparações de qualquer valor não NaN com +/- INF retornam o resultado correto.

Desvios ou requisitos adicionais das regras IEEE-754

O IEEE-754 requer operações de ponto flutuante para produzir um resultado que seja o valor representável mais próximo de um resultado infinitamente preciso, conhecido como arredondado para o par mais próximo.

O Direct3D 11 e superior definem o mesmo requisito que o IEEE-754: as operações de ponto flutuante de 32 bits produzem um resultado que está dentro de 0,5 unidade de último lugar (ULP) do resultado infinitamente preciso. Isso significa que, por exemplo, o hardware tem permissão para truncar os resultados para 32 bits em vez de executar o arredondamento para o par mais próximo, pois isso resultaria em um erro de no máximo 0,5 ULP. Esta regra se aplica apenas à adição, subtração e multiplicação.

As versões anteriores do Direct3D definem um requisito mais flexível do que o IEEE-754: as operações de ponto flutuante de 32 bits produzem um resultado que está dentro de uma unidade de último lugar (1 ULP) do resultado infinitamente preciso. Isso significa que, por exemplo, o hardware pode truncar os resultados para 32 bits em vez de executar o arredondamento para o par mais próximo, pois isso resultaria em erro de no máximo um ULP.
Não há suporte para exceções de ponto flutuante, bits de status ou armadilhas.
As denormas são liberadas para zero preservado por sinal na entrada e saída de qualquer operação matemática de ponto flutuante. Exceções são feitas para qualquer operação de E/S ou movimentação de dados que não manipule os dados.
Os estados que contêm valores de ponto flutuante, como valores Viewport MinDepth/MaxDepth ou BorderColor, podem ser fornecidos como valores de denorm e podem ou não ser liberados antes que o hardware os use.
As operações mínima ou máxima liberam denorms para comparação, mas o resultado pode ou não ser denorm liberado.
A entrada NaN para uma operação sempre produz NaN na saída. Mas o padrão de bits exato do NaN não precisa permanecer o mesmo (a menos que a operação seja uma instrução de movimentação bruta - que não altera os dados).
As operações Min ou max para as quais apenas um operando é NaN retornam o outro operando como resultado (ao contrário das regras de comparação que vimos anteriormente). Esta é uma regra IEEE 754R.

A especificação IEEE-754R para operações min e max de ponto flutuante afirma que, se uma das entradas para min ou max for um valor QNaN silencioso, o resultado da operação será o outro parâmetro. Por exemplo:
```
min(x,QNaN) == min(QNaN,x) == x (same for max)
```
Uma revisão da especificação IEEE-754R adotou um comportamento diferente para min e max quando uma entrada é um valor SNaN de "sinalização" versus um valor QNaN:
```
min(x,SNaN) == min(SNaN,x) == QNaN (same for max)
```
Geralmente, o Direct3D segue os padrões de aritmética: IEEE-754 e IEEE-754R. Mas, neste caso, temos um desvio.

As regras aritméticas no Direct3D 10 e posteriores não fazem distinções entre valores NaN silenciosos e de sinalização (QNaN versus SNaN). Todos os valores NaN são tratados da mesma maneira. No caso de min e max, o comportamento do Direct3D para qualquer valor NaN é semelhante à forma como QNaN é tratado na definição IEEE-754R. (Para fins de completude - se ambas as entradas forem NaN, qualquer valor NaN será retornado.)
Outra regra do IEEE 754R é que min(-0,+0) == min(+0,-0) == -0 e max(-0,+0) == max(+0,-0) == +0, que respeita o sinal, em contraste com as regras de comparação para zero com sinal (como vimos anteriormente). O Direct3D recomenda o comportamento IEEE 754R aqui, mas não o impõe; É permitido que o resultado da comparação de zeros seja dependente da ordem dos parâmetros, usando uma comparação que ignora os sinais.
x*1.0f sempre resulta em x (exceto denorm liberado).
x/1.0f sempre resulta em x (exceto denorm liberado).
x +/- 0,0f sempre resulta em x (exceto denorm liberado). Mas -0 + 0 = +0.
Operações fundidas (como mad, dp3) produzem resultados que não são menos precisos do que a pior ordenação serial possível de avaliação da expansão não fundida da operação. A definição da pior ordenação possível, para fins de tolerância, não é uma definição fixa para uma determinada operação fundida; depende dos valores particulares das entradas. As etapas individuais na expansão não fundida têm tolerância de 1 ULP (ou, para quaisquer instruções que o Direct3D chama com uma tolerância mais frouxa do que 1 ULP, a tolerância mais frouxa é permitida).
As operações fundidas seguem as mesmas regras NaN que as operações não fundidas.
sqrt e rcp têm 1 tolerância ULP. As instruções de raiz quadrada recíproca e recíproca do sombreador, rcp e rsq, têm seu próprio requisito de precisão relaxado separado.
Multiplique e divida cada operação no nível de precisão de ponto flutuante de 32 bits (precisão de 0,5 ULP para multiplicar, 1,0 ULP para recíproco). Se x/y for implementado diretamente, os resultados devem ser de maior ou igual precisão do que um método de duas etapas.

Regras de ponto flutuante de 64 bits (precisão dupla)

Opcionalmente, os drivers de hardware e exibição dão suporte ao ponto flutuante de precisão dupla. Para indicar suporte, quando você chama ID3D11Device::CheckFeatureSupport com D3D11_FEATURE_DOUBLES, o driver define DoublePrecisionFloatShaderOps de D3D11_FEATURE_DATA_DOUBLES como TRUE. O driver e o hardware devem dar suporte a todas as instruções de ponto flutuante de precisão dupla.

As instruções de precisão dupla seguem os requisitos de comportamento do IEEE 754R.

O suporte para geração de valores desnormalizados é necessário para dados de precisão dupla (sem comportamento de liberação para zero). Da mesma forma, as instruções não leem dados desnormalizados como um zero com sinal, elas respeitam o valor denorm.

Regras de ponto flutuante de 16 bits

O Direct3D também dá suporte a representações de 16 bits de números de ponto flutuante.

Formato:

1 bit (s) de sinal na posição do bit MSB
5 bits do expoente tendencioso (e)
10 bits de fração (f), com um bit oculto adicional

Um valor float16 (v) segue estas regras:

se e == 31 e f != 0, então v é NaN independentemente de s
Se e == 31 e f == 0, então v = (-1)s*infinito (infinito com sinal)
Se E estiver entre 0 e 31, então V = (-1)s*2(E-15)*(1.F)
Se e == 0 e f != 0, então v = (-1)s*2(e-14)*(0.f) (números desnormalizados)
se e == 0 e f == 0, então v = (-1)s*0 (com zero assinado)

As regras de ponto flutuante de 32 bits também são válidas para números de ponto flutuante de 16 bits, ajustados para o layout de bits descrito anteriormente. As exceções a essa regra incluem:

Precisão: operações não fundidas em números de ponto flutuante de 16 bits produzem um resultado que é o valor representável mais próximo de um resultado infinitamente preciso (arredondar para o par mais próximo, de acordo com IEEE-754, aplicado a valores de 16 bits). As regras de ponto flutuante de 32 bits aderem à tolerância de 1 ULP, as regras de ponto flutuante de 16 bits aderem a 0,5 ULP para operações não fundidas e 0,6 ULP para operações fundidas.
Os números de ponto flutuante de 16 bits preservam as denormas.

Regras de ponto flutuante de 11 bits e 10 bits

O Direct3D também dá suporte a formatos de ponto flutuante de 11 bits e 10 bits.

Formato:

Nenhum bit de sinal
5 bits do expoente tendencioso (e)
6 bits de fração (f) para um formato de 11 bits, 5 bits de fração (f) para um formato de 10 bits, com um bit oculto adicional em ambos os casos.

Um valor float11/float10 (v) segue as seguintes regras:

se e == 31 e f != 0, então v é NaN
se e == 31 e f == 0, então v = +infinito
Se E estiver entre 0 e 31, então V = 2(E-15)*(1.F)
se e == 0 e f != 0, então v = *2(e-14)*(0.f) (números desnormalizados)
se e == 0 e f == 0, então v = 0 (zero)

As regras de ponto flutuante de 32 bits também são válidas para números de ponto flutuante de 11 bits e 10 bits, ajustados para o layout de bits descrito anteriormente. As exceções incluem:

Precisão: as regras de ponto flutuante de 32 bits aderem a 0,5 ULP.
Os números de ponto flutuante de 10/11 bits preservam as denormas.
Qualquer operação que resulte em um número menor que zero é fixada em zero.

Apêndices

Recursos

Texturas

Compartilhar via

Regras de ponto flutuante

Regras de ponto flutuante de 32 bits

Regras IEEE-754 honradas

Desvios ou requisitos adicionais das regras IEEE-754

Regras de ponto flutuante de 64 bits (precisão dupla)

Regras de ponto flutuante de 16 bits

Regras de ponto flutuante de 11 bits e 10 bits

Comentários

Recursos adicionais

Compartilhar via

Regras de ponto flutuante

Regras de ponto flutuante de 32 bits

Regras IEEE-754 honradas

Desvios ou requisitos adicionais das regras IEEE-754

Regras de ponto flutuante de 64 bits (precisão dupla)

Regras de ponto flutuante de 16 bits

Regras de ponto flutuante de 11 bits e 10 bits

Tópicos relacionados

Comentários

Recursos adicionais