O que é a “Era da Inferência” que pode redefinir o futuro da IA

Publicado 18/03/2026 • 16:20 | Atualizado há 3 meses

KEY POINTS

Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência.
No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica", como descreve o d-Matrix.

O que é a Era da Inferência e por que ela deve dominar futuro da IA?

Foto: Freepik.

Inteligência Artificial (IA)

Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência. No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica”, como descreve o d-Matrix.

Durante o evento GTC 2026, a big tech lançou o Nvidia Groq 3 LPX, uma plataforma para comportar 72 servidores de última geração do Vera Rubin – nomenclatura dada em homenagem à astrônoma de mesmo nome. Em geral, a tecnologia se diferencia por:

ter 256 unidades do novo chip LPU;

ser capaz de gerar até 700 milhões de tokens por segundo;

ter a taxa de computação 350 vezes mais rápida do que o Hopper, a penúltima geração de GPUs da Nvidia.

Mas, o que o novo produto da NVIDIA realmente significa para o mercado?

O que é Inferência de IA e Era de Inferência?

Na prática, apesar do termo pouco usual, inferência de IA diz respeito às consultas que os agentes e chat bots fazem quando usuários perguntam em plataformas como ChatGPT, Gemini, Copilot e outros. A título de exemplo, a d-Matrix ilustra que, no cotidiano, a inferência de IA acontece ao:

desbloquear o smartphone com reconhecimento facial;

o Google exibir resultados de pesquisa personalizados;

a Netflix recomendar filmes que você pode gostar;

filtragem de spam no Gmail;

assistentes inteligentes que respondem a comandos de voz

ChatGPT responder a perguntas de usuários.

Siga o Times | CNBC no Google e receba as principais notícias do Brasil e do Mundo.

Siga o Times | CNBC

Entretanto, essa atividade custava caro e consumia muita energia. Segundo a d-Matrix, a inferência de IA é o processo que acontece após o treinamento do modelo e da etapa de refinamento, quando a ferramenta já recebeu os dados e está pronta para uso.

Em casos de tecnologias de IA mais simples, exige-se menos recursos, como uma única placa de vídeo ou placa aceleradora. Na verdade, o que muda é a natureza dos dados – imagens, voz e outros.

Ou seja, modelos de IA generativa exigem maior inferência de dados, podendo chegar até na casa dos trilhões de parâmetros. Sendo assim, seriam necessários mais recursos, o que exigiria mais dinheiro e energia.

No dia a dia, o usuário sente esses obstáculos pelo alto custo de acessar a tecnologia e maior lentidão na geração de respostas. Logo, essas questões eram grandes gargalos na indústria de IA, que ainda trabalha para escalar essas tecnologias.

Agora, a novidade da NVIDIA pode ser a primeira a superar essas barreiras.

O diferencial do lançamento da Nvidia

O destaque do Nvidia Groq 3 LPX se deve, principalmente, ao novo chip LPU – sigla para Language Processing Unit em inglês, que em português se traduz como ‘unidade de processamento de linguagem’.

Desenvolvido pela startup Groq, o chip atenderá tecnologias baseadas em grandes Modelos de Linguagem (LLMs). Com ele, a inferência de IA será acelerada e gerará tokens mais rápido. A maior velocidade permitirá que as placas de vídeo (GPUs) tenham um desempenho mais leve e rápido – permitindo, inclusive, treinar LLMs com maior eficiência.

Ou seja, otimizou-se a capacidade dos chips. Entretanto, o gargalo será obter a quantidade suficiente de chips para continuar desenvolvendo GPUs desse nível.

Antes deste lançamento, as GPUs da Nvidia não eram consideradas ideais para inferência, justamente devido ao alto consumo de energia e memória insuficiente. No dia a dia, os modelos de LLMs penavam para abrir os conjuntos de dados utilizados para treiná-los.

“Este é o futuro da IA. É para cá que a IA quer ir”, disse Jensen Huang, CEO da NVIDIA. “Ela foi projetada para inferência, para essa carga de trabalho específica. E é essa carga de trabalho que impulsiona as fábricas de IA”, disse o executivo no GTC 2026.

Visualizando todos Stories

Tecnologia: Snap aposta em óculos de US$ 2 mil para convencer usuários a largar smartphones; veja

Por André Amadeus

Quantos gols Messi precisou para se tornar o maior artilheiro da história das Copas?

Por Nathalia Gimenes

Copa do Mundo: figurinha de Messi é vendida por mais de R$ 3 mil na Argentina

Por André Amadeus

Copa do Mundo pode aumentar casos de vício em apostas esportivas; entenda

Por Nathalia Gimenes

‘Toy Story’: Woody e Buzz envelheceram? A estratégia da Disney para transformar nostalgia em receita

Por Joyce Canelle

BTS pode adicionar bilhões à economia da Coreia do Sul; entenda

Por Nathalia Gimenes

Quanto custa reunir amigos em casa para assistir aos jogos da Copa do Mundo de 2026?

Por Joyce Canelle

Turismo na Coreia do Sul vive alta histórica; entenda o fenômeno por trás do crescimento

Por Joyce Canelle

📌 ONDE ASSISTIR AO MAIOR CANAL DE NEGÓCIOS DO MUNDO NO BRASIL:

🔷 Canal 562 ClaroTV+ | Canal 562 Sky | Canal 592 Vivo | Canal 187 Oi | Operadoras regionais

🔷 TV SINAL ABERTO: parabólicas canal 562

🔷 ONLINE: www.timesbrasil.com.br | YouTube

🔷 FAST Channels: Samsung TV Plus, LG Channels, TCL Channels, Pluto TV, Roku, Soul TV, Zapping | Novos Streamings

Letícia Maia

Siga o Times Brasil - Licenciado Exclusivo CNBC no

Maiores Audiências

CBF exclui CazéTV da disputa pelos direitos da Copa do Brasil até 2030

Quem é a brasileira que administra a carreira milionária do jogador norueguês Haaland

Justiça decide pedido de falência e OI pode deixar de existir a partir de hoje

Cota para elétricos que favorece a BYD expõe contradição do governo com plano de nova indústria

Grupo Mateus recebe autuação bilionária da Receita Federal e contesta cobrança

O que é a “Era da Inferência” que pode redefinir o futuro da IA

O que é Inferência de IA e Era de Inferência?

O diferencial do lançamento da Nvidia

MAIS EM Tecnologia & Inovação