França está pronta para ajudar os Estados Unidos a garantir a segurança do Estreito de Ormuz

Ações de empresas de IA da China disparam após Nvidia chamar OpenClaw de “próximo ChatGPT”

Morgan Stanley prevê calote de 8% no crédito privado, nível próximo ao pico da Covid

Ex-CEO da Uber rebatiza empresa como Atoms e amplia atuação para mineração e transporte

Apple adquire MotionVFX, empresa de plugins e templates para Final Cut Pro

Tecnologia & Inovação

O que é a “Era da Inferência” que pode redefinir o futuro da IA

Publicado 18/03/2026 • 16:20 | Atualizado há 4 horas

KEY POINTS

Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência.
No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica", como descreve o d-Matrix.

Foto: Freepik.

O que é a Era da Inferência e por que ela deve dominar futuro da IA?

Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência. No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica”, como descreve o d-Matrix.

Durante o evento GTC 2026, a big tech lançou o Nvidia Groq 3 LPX, uma plataforma para comportar 72 servidores de última geração do Vera Rubin – nomenclatura dada em homenagem à astrônoma de mesmo nome. Em geral, a tecnologia se diferencia por:

ter 256 unidades do novo chip LPU;
ser capaz de gerar até 700 milhões de tokens por segundo;
ter a taxa de computação 350 vezes mais rápida do que o Hopper, a penúltima geração de GPUs da Nvidia.

Mas, o que o novo produto da NVIDIA realmente significa para o mercado?

O que é Inferência de IA e Era de Inferência?

Na prática, apesar do termo pouco usual, inferência de IA diz respeito às consultas que os agentes e chat bots fazem quando usuários perguntam em plataformas como ChatGPT, Gemini, Copilot e outros. A título de exemplo, a d-Matrix ilustra que, no cotidiano, a inferência de IA acontece ao:

desbloquear o smartphone com reconhecimento facial;
o Google exibir resultados de pesquisa personalizados;
a Netflix recomendar filmes que você pode gostar;
filtragem de spam no Gmail;
assistentes inteligentes que respondem a comandos de voz
ChatGPT responder a perguntas de usuários.

Entretanto, essa atividade custava caro e consumia muita energia. Segundo a d-Matrix, a inferência de IA é o processo que acontece após o treinamento do modelo e da etapa de refinamento, quando a ferramenta já recebeu os dados e está pronta para uso.

Em casos de tecnologias de IA mais simples, exige-se menos recursos, como uma única placa de vídeo ou placa aceleradora. Na verdade, o que muda é a natureza dos dados – imagens, voz e outros.

Ou seja, modelos de IA generativa exigem maior inferência de dados, podendo chegar até na casa dos trilhões de parâmetros. Sendo assim, seriam necessários mais recursos, o que exigiria mais dinheiro e energia.

No dia a dia, o usuário sente esses obstáculos pelo alto custo de acessar a tecnologia e maior lentidão na geração de respostas. Logo, essas questões eram grandes gargalos na indústria de IA, que ainda trabalha para escalar essas tecnologias.

Agora, a novidade da NVIDIA pode ser a primeira a superar essas barreiras.

O diferencial do lançamento da Nvidia

O destaque do Nvidia Groq 3 LPX se deve, principalmente, ao novo chip LPU – sigla para Language Processing Unit em inglês, que em português se traduz como ‘unidade de processamento de linguagem’.

Desenvolvido pela startup Groq, o chip atenderá tecnologias baseadas em grandes Modelos de Linguagem (LLMs). Com ele, a inferência de IA será acelerada e gerará tokens mais rápido. A maior velocidade permitirá que as placas de vídeo (GPUs) tenham um desempenho mais leve e rápido – permitindo, inclusive, treinar LLMs com maior eficiência.

Ou seja, otimizou-se a capacidade dos chips. Entretanto, o gargalo será obter a quantidade suficiente de chips para continuar desenvolvendo GPUs desse nível.

Antes deste lançamento, as GPUs da Nvidia não eram consideradas ideais para inferência, justamente devido ao alto consumo de energia e memória insuficiente. No dia a dia, os modelos de LLMs penavam para abrir os conjuntos de dados utilizados para treiná-los.

“Este é o futuro da IA. É para cá que a IA quer ir”, disse Jensen Huang, CEO da NVIDIA. “Ela foi projetada para inferência, para essa carga de trabalho específica. E é essa carga de trabalho que impulsiona as fábricas de IA”, disse o executivo no GTC 2026.

Visualizando todos Stories