CNBC
Estreito de Ormuz

CNBCFrança está pronta para ajudar os Estados Unidos a garantir a segurança do Estreito de Ormuz

Tecnologia & Inovação

O que é a “Era da Inferência” que pode redefinir o futuro da IA

Publicado 18/03/2026 • 16:20 | Atualizado há 4 horas

KEY POINTS

  • Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência.
  • No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica", como descreve o d-Matrix.
O que é a Era da Inferência e por que ela deve dominar futuro da IA?

Foto: Freepik.

O que é a Era da Inferência e por que ela deve dominar futuro da IA?

Na última segunda-feira (16), a NVIDIA anunciou uma série de novos produtos para acompanhar a Era da Inferência. No contexto da inteligência artificial (IA), esse termo diz respeito ao “processo de executar um modelo de IA para realizar uma tarefa específica”, como descreve o d-Matrix.

Durante o evento GTC 2026, a big tech lançou o Nvidia Groq 3 LPX, uma plataforma para comportar 72 servidores de última geração do Vera Rubin – nomenclatura dada em homenagem à astrônoma de mesmo nome. Em geral, a tecnologia se diferencia por:

  • ter 256 unidades do novo chip LPU;
  • ser capaz de gerar até 700 milhões de tokens por segundo;
  • ter a taxa de computação 350 vezes mais rápida do que o Hopper, a penúltima geração de GPUs da Nvidia. 

Mas, o que o novo produto da NVIDIA realmente significa para o mercado?

Leia também: SXSW: tecnologia avança, mas storytelling reforça o que nos faz humanos

O que é Inferência de IA e Era de Inferência?

Na prática, apesar do termo pouco usual, inferência de IA diz respeito às consultas que os agentes e chat bots fazem quando usuários perguntam em plataformas como ChatGPT, Gemini, Copilot e outros. A título de exemplo, a d-Matrix ilustra que, no cotidiano, a inferência de IA acontece ao:

  • desbloquear o smartphone com reconhecimento facial;
  • o Google exibir resultados de pesquisa personalizados; 
  • a Netflix recomendar filmes que você pode gostar;
  • filtragem de spam no Gmail;
  • assistentes inteligentes que respondem a comandos de voz 
  • ChatGPT responder a perguntas de usuários.

Entretanto, essa atividade custava caro e consumia muita energia. Segundo a d-Matrix, a inferência de IA é o processo que acontece após o treinamento do modelo e da etapa de refinamento, quando a ferramenta já recebeu os dados e está pronta para uso. 

Em casos de tecnologias de IA mais simples, exige-se menos recursos, como uma única placa de vídeo ou placa aceleradora. Na verdade, o que muda é a natureza dos dados – imagens, voz e outros.

Ou seja, modelos de IA generativa exigem maior inferência de dados, podendo chegar até na casa dos trilhões de parâmetros. Sendo assim, seriam necessários mais recursos, o que exigiria mais dinheiro e energia. 

No dia a dia, o usuário sente esses obstáculos pelo alto custo de acessar a tecnologia e maior lentidão na geração de respostas. Logo, essas questões eram grandes gargalos na indústria de IA, que ainda trabalha para escalar essas tecnologias.

Agora, a novidade da NVIDIA pode ser a primeira a superar essas barreiras. 

Leia também: Ações de empresas de IA da China disparam após Nvidia chamar OpenClaw de “próximo ChatGPT”

O diferencial do lançamento da Nvidia

O destaque do Nvidia Groq 3 LPX se deve, principalmente, ao novo chip LPU – sigla para Language Processing Unit em inglês, que em português se traduz como ‘unidade de processamento de linguagem’. 

Desenvolvido pela startup Groq, o chip atenderá tecnologias baseadas em grandes Modelos de Linguagem (LLMs). Com ele, a inferência de IA será acelerada e gerará tokens mais rápido. A maior velocidade permitirá que as placas de vídeo (GPUs) tenham um desempenho mais leve e rápido – permitindo, inclusive, treinar LLMs com maior eficiência. 

Ou seja, otimizou-se a capacidade dos chips. Entretanto, o gargalo será obter a quantidade suficiente de chips para continuar desenvolvendo GPUs desse nível. 

Antes deste lançamento, as GPUs da Nvidia não eram consideradas ideais para inferência, justamente devido ao alto consumo de energia e memória insuficiente. No dia a dia, os modelos de LLMs penavam para abrir os conjuntos de dados utilizados para treiná-los. 

“Este é o futuro da IA. É para cá que a IA quer ir”, disse Jensen Huang, CEO da NVIDIA. “Ela foi projetada para inferência, para essa carga de trabalho específica. E é essa carga de trabalho que impulsiona as fábricas de IA”, disse o executivo no GTC 2026.

📌 ONDE ASSISTIR AO MAIOR CANAL DE NEGÓCIOS DO MUNDO NO BRASIL:


🔷 Canal 562 ClaroTV+ | Canal 562 Sky | Canal 592 Vivo | Canal 187 Oi | Operadoras regionais

🔷 TV SINAL ABERTO: parabólicas canal 562

🔷 ONLINE: www.timesbrasil.com.br | YouTube

🔷 FAST Channels: Samsung TV Plus, LG Channels, TCL Channels, Pluto TV, Roku, Soul TV, Zapping | Novos Streamings

Siga o Times Brasil - Licenciado Exclusivo CNBC no

MAIS EM Tecnologia & Inovação

;
IA pode assumir o controle dos seus investimentos? Veja o que dizem especialistas O que significa um banco ser liquidado? Entenda como funciona o processo Pix tem novas regras; veja o que o Procon-SP orienta para se proteger Pix tem novas regras; veja o que o Procon-SP orienta para se proteger Estudantes endividados: 66% dos universitários já cortaram gastos básicos para pagar a faculdade IPTU 2026: afinal, quem deve pagar, proprietário ou inquilino? Musk x China? A disputa pela Lua ganha força com apoio de bilionários americanos; saiba mais Cinema brasileiro deve ganhar mais espaço no exterior até 2029; veja o que diz o estudo