Tecnologia

NVIDIA amplia a IA local baseada em agentes em PCs RTX e no DGX Spark

Published

on

Anunciado durante o GTC Taipei na COMPUTEX, o NVIDIA OpenShell leva agentes seguros ao Windows com desempenho de inferência até 2x superior no llama.cpp. Além disso, a Adobe está reconstruindo seus aplicativos com melhorias de desempenho e memória, enquanto o Blender adiciona NVIDIA DLSS 4.5 Ray Reconstruction para o NVIDIA RTX Spark

Os agentes pessoais estão se popularizando rapidamente, com projetos de código aberto como OpenClaw e Hermes registrando forte adoção pelas comunidades de desenvolvedores de IA no GitHub. Desenvolvidos para se adaptar às preferências e fluxos de trabalho individuais, esses agentes podem interagir com aplicativos, gerar conteúdo, automatizar processos repetitivos e gerenciar tarefas de múltiplas etapas — tudo isso executado localmente no dispositivo.

Durante o NVIDIA GTC Taipei na COMPUTEX, a NVIDIA revelou o NVIDIA RTX Spark — uma nova categoria de PCs Windows desenvolvida especificamente para agentes pessoais — juntamente com uma série de atualizações que expandem os agentes locais por todo o ecossistema NVIDIA RTX e DGX.

Executar agentes de forma segura e privada exige hardware capaz de lidar com essa demanda. Com 1 petaflop de capacidade de processamento para IA e 128 GB de memória unificada, o RTX Spark atende às exigências computacionais dos agentes executados localmente, oferecendo uma nova categoria de computador que evolui de ferramenta a companheiro de trabalho. Projetado para IA, criação de conteúdo e jogos, o RTX Spark reúne os 30 anos de inovação tecnológica da NVIDIA em notebooks Windows finos com bateria para o dia todo e desktops ultracompactos altamente eficientes.

A parceria da NVIDIA com o Windows se estende de soluções pessoais até corporativas. Também apresentado durante o evento, o NVIDIA RTX Station é o supercomputador de mesa definitivo para IA voltado a profissionais, trazendo GPU e CPU de classe de data center para inferência em um sistema desktop equipado com Windows, garantindo gerenciamento, segurança e compatibilidade.

Outros anúncios incluem:

– O runtimeNVIDIA OpenShell chegará ao Windows, desenvolvido sobre os novos mecanismos de segurança para agentes da Microsoft, oferecendo aos desenvolvedores um pacote de fácil implementação para agentes seguros executados localmente. Hermes Agent e OpenClaw também integrarão o OpenShell e os mecanismos de segurança da Microsoft em seus novos aplicativos para Windows.

– O blueprint NVIDIA NemoClaw está sendo expandido para toda a linha de IA local da NVIDIA — GeForce RTX, RTX PRO, RTX e DGX Spark, RTX e DGX Station — com novos instaladores simplificados e suporte ao Hermes Agent.

– Desempenho de inferência até 2x superior nos principais modelos agentivos com previsão de múltiplos tokens em llama.cpp e vLLM, além de novas otimizações multi-GPU para llama.cpp e ComfyUI.

– A H Company está lançando ferramentas de uso de computador — incluindo novos modelos e uma futura estrutura para agentes de desktop — otimizadas para PCs RTX e DGX.

– A Adobe está reformulando seus aplicativos Photoshop e Premiere, o Blender está adicionando NVIDIA DLSS 4.5 Ray Reconstruction, e a NVIDIA revelou o RTX Video Frame Generation, que chegará ao ComfyUI. Todas essas atualizações serão lançadas no segundo semestre juntamente com o RTX Spark.

– A atualização NVIDIA Broadcast 2.2 traz otimizações para o recurso Studio Voice e suporte ao Elgato Stream Deck. O NVIDIA Project G-Assist também passa a contar com integração ao Stream Deck.

IA Agentiva Local: pessoal, privada e rápida em PCs Windows RTX

A ampla adoção de agentes tem sido limitada pela incapacidade de executá-los de forma segura e privada nos PCs principais dos usuários.

A NVIDIA e a Microsoft estão trabalhando em parceria para resolver esse desafio, oferecendo uma plataforma Windows robusta e segura para agentes executados diretamente no dispositivo.

A colaboração começa com uma base sólida — os novos mecanismos de segurança do Windows e o runtime NVIDIA OpenShell — para garantir que os agentes operem com segurança e sob total controle do usuário.

Os novos mecanismos do Windows oferecem recursos de identidade, contenção, políticas e segurança ponta a ponta para criar e executar agentes nativamente. O NVIDIA OpenShell fornece recursos adicionais de política para que os usuários definam o que os agentes podem ou não fazer, a capacidade de direcionar consultas de forma inteligente para modelos locais com base nas políticas de privacidade do usuário e a possibilidade de mascarar informações pessoais em consultas enviadas para modelos em nuvem.

Essa robusta camada de segurança e privacidade está sendo adotada por desenvolvedores líderes de agentes, como Hermes Agent e OpenClaw, em seus novos aplicativos para Windows. Esses novos aplicativos facilitarão o acesso seguro dos usuários a agentes locais avançados capazes de executar tarefas em aplicativos Windows, raciocinar sobre fluxos de trabalho entre diferentes programas, gerar imagens e vídeos, desenvolver plug-ins e aplicativos, além de realizar buscas semânticas em arquivos locais.

Executar agentes em dispositivos locais exige tanto segurança robusta quanto hardware de alto desempenho. O RTX Spark oferece até 1 petaflop de processamento para IA e 128 GB de memória unificada para atender às demandas de processamento desses agentes.

A NVIDIA também está acelerando o ecossistema de modelos abertos locais dos quais esses agentes dependem.

A NVIDIA colaborou com a comunidade llama.cpp para habilitar recursos e otimizações como a previsão de múltiplos tokens (MTP) — uma técnica de decodificação especulativa em que um modelo menor propõe vários tokens simultaneamente, enquanto o modelo principal os valida em uma única passagem. Combinada a outras otimizações, como o programmatic dependent launch, essa tecnologia entrega desempenho até 2x superior nos modelos Qwen 3.6 e 3.5 27B, além de um ganho de 1,6x nos modelos Qwen 3.6 e 3.5 35B. Essas atualizações estão disponíveis por meio da interface web do llama.cpp e do LM Studio.

Os ganhos de desempenho demonstrados com as mais recentes otimizações da NVIDIA para o llama.cpp mostra que o Qwen3.6-27B alcança até 2x mais throughput e o Qwen3.6-35B até 1,6x em uma GeForce RTX 5090, acelerando cargas de trabalho de IA agentiva local por meio da colaboração com a comunidade de código aberto.

Para entusiastas de IA que utilizam sistemas com múltiplas GPUs, a NVIDIA colaborou com a comunidade de código aberto para aprimorar duas das ferramentas de IA local mais populares:

– O llama.cpp adiciona paralelismo de tensores para oferecer até 2x mais memória e 1,8x mais capacidade computacional utilizando duas GPUs equivalentes.

– O ComfyUI recebe um novo método de classifier-free guidance que proporciona até 2x mais desempenho com duas GPUs equivalentes, além da possibilidade de dividir cadeias de modelos entre GPUs para aproveitar a memória combinada.

Demonstra melhorias no desempenho de geração de tokens da técnica Tensor Parallel Multi-GPU em comparação com inferência via pipeline parallel e GPU única no llama.cpp.

 Demonstra melhorias no tempo de geração com técnicas multi-GPU no ComfyUI.

A NVIDIA também está expandindo as capacidades dos agentes em parceria com a H Company. A estrutura de uso de computador da H Company permite que agentes naveguem em um PC observando a tela e operando mouse e teclado como um usuário real, mesmo em aplicativos que não possuem APIs, e chegará em breve aos PCs RTX e DGX com suporte a modelos locais.

A NVIDIA colaborou com a H Company para quantizar seus avançados modelos Holo Computer Use, além de acelerar sua estrutura, proporcionando um ganho de velocidade de 2x em GPUs NVIDIA e reduzindo o consumo de memória em 35%. Os modelos já estão disponíveis para download, e o aplicativo Holo Desktop será lançado em breve.

Otimizações para agentes no Linux

Para desenvolvedores que precisam de agentes locais sempre acessíveis, o NVIDIA DGX Spark é o computador pessoal de IA para agentes mais avançado para quem necessita de um ambiente Linux, unificando grande capacidade de memória, processamento acelerado e compatibilidade com o ecossistema NVIDIA CUDA.

A atualização do sistema operacional DGX Spark deste mês traz a experiência mais simplificada já oferecida, com um instalador otimizado do NemoClaw e inferência mais rápida nos principais modelos agentivos.

O NemoClaw agora está disponível para todos os PCs NVIDIA RTX e DGX executando Linux e Windows Subsystem for Linux. Implante agentes locais com segurança no Linux utilizando novos instaladores simplificados, que oferecem sandboxing automático e suporte adicional ao Hermes Agent.

A NVIDIA colaborou com o vLLM para otimizar a inferência para agentes, trazendo melhorias ao vLLM e novos checkpoints NVFP4 otimizados para o Qwen 3.6 35B. As atualizações entregam desempenho 2,6x superior no DGX Spark em comparação aos checkpoints NVFP4 anteriormente disponíveis pela Unsloth, incluindo melhorias de kernel, precisão mista e suporte a CUDA Graph para MTP.

Fonte: assessoria de imprensa

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Trending

Sair da versão mobile