Introdução ao DirectML
Emparelhar o DirectML com o ONNX Runtime geralmente é a maneira mais simples para muitos desenvolvedores trazerem IA acelerada por hardware para seus usuários em escala. Estes três passos são um guia geral para usar este poderoso combo.
1. Converter
O formato ONNX permite que você aproveite o ONNX Runtime com DirectML, que fornece recursos de hardware cruzado.
Para converter seu modelo para o formato ONNX, você pode utilizar ONNXMLTools ou Olive.
optimizers
Depois de ter um modelo .onnx, aproveite o Olive powered by DirectML para otimizar seu modelo. Você verá melhorias de desempenho impressionantes que podem ser implantadas em todo o ecossistema de hardware do Windows.
3. Integrar
Quando seu modelo estiver pronto, é hora de trazer inferência acelerada por hardware para seu aplicativo com o ONNX Runtime e o DirectML. Para modelos de IA generativa, recomendamos usar a API ONNX Runtime Generate()
Criamos alguns exemplos para mostrar como você pode usar o DirectML e o ONNX Runtime:
- Phi-3-mini
- LLMs (modelos de linguagem grandes)
- Difusão Estável
- Transferência de estilo
- Opções de inferência
DirectML e PyTorch
O back-end DirectML para Pytorch permite acesso de alto desempenho e baixo nível ao hardware da GPU, enquanto expõe uma API Pytorch familiar para desenvolvedores. Mais informações sobre como usar o PyTorch com DirectML podem ser encontradas aqui
DirectML para aplicativos Web (Visualização)
A API de Rede Neural da Web (WebNN) é um padrão da Web emergente que permite que aplicativos e estruturas da Web acelerem redes neurais profundas com hardware no dispositivo, como GPUs, CPUs ou aceleradores de IA construídos especificamente para esse fim, como NPUs. A API WebNN aproveita a API DirectML no Windows para acessar os recursos de hardware nativos e otimizar a execução de modelos de rede neural. Para mais informações sobre o WebNN pode ser encontrado aqui