Por que a General Compute aposta em ASICs para acelerar LLM inference
AGÊNCIA DE COMUNICAÇÃO Conteúdo de responsabilidade da empresa 18 de maio de 2026

O crescimento acelerado da inteligência artificial generativa está criando uma nova corrida tecnológica no mercado global: a busca por infraestruturas mais rápidas, eficientes e econômicas para LLM inference.
Deste modo, empresas do setor passaram a disputar quem consegue entregar respostas em tempo real com menor latência e menor custo operacional.
A General Compute decidiu seguir um caminho diferente da maior parte do mercado. Em vez de depender exclusivamente de GPUs tradicionais, a empresa aposta em ASICs — chips desenvolvidos especificamente para workloads de inferência de inteligência artificial.
Segundo a companhia, o futuro da IA não depende apenas de modelos mais inteligentes, mas principalmente de infraestrutura capaz de entregar velocidade em larga escala.
O que é LLM inference?
LLM inference é o processo em que modelos de linguagem já treinados começam a gerar respostas para usuários finais.
Toda vez que alguém conversa com um chatbot, utiliza um copiloto de programação ou interage com um agente de IA, existe um sistema realizando inferência em tempo real.
Esse processo envolve leitura de prompts, processamento de contexto, cálculo probabilístico de tokens e geração contínua de respostas.
Com o crescimento da IA generativa, o volume de inferência aumentou drasticamente. Empresas passaram a precisar de infraestrutura capaz de suportar milhões de solicitações simultâneas com baixa latência.
É justamente nesse ponto que a General Compute acredita existir um gargalo nas arquiteturas atuais baseadas em GPUs.
A limitação das GPUs tradicionais
Durante anos, GPUs dominaram o mercado de inteligência artificial. Empresas como a NVIDIA se tornaram referência mundial ao fornecer hardware para treinamento de modelos de IA.
No entanto, a General Compute argumenta que GPUs foram originalmente criadas para renderização gráfica e jogos, não para inference AI em larga escala.
Segundo o posicionamento da empresa, GPUs carregam décadas de arquitetura legada adaptada posteriormente para IA.
Na visão da startup, isso cria limitações relacionadas a:
• consumo energético;
• movimentação de memória;
• latência;
• refrigeração;
• eficiência por token gerado.
A empresa afirma que o mercado de IA acabou utilizando GPUs como solução padrão porque elas eram o hardware disponível, e não necessariamente o ideal para inferência.
ASICs como alternativa para inference AI
Para tentar resolver esse problema, a General Compute decidiu apostar em ASICs (Application-Specific Integrated Circuits).
Diferentemente das GPUs, ASICs são chips criados especificamente para determinadas tarefas computacionais.
No caso da empresa, os chips foram projetados exclusivamente para workloads de inferência de modelos de linguagem. Assim sendo, significa que toda a arquitetura é otimizada para:
• geração rápida de tokens;
• redução de gargalos de memória;
• menor consumo energético;
• menor latência;
• processamento contínuo em tempo real.
Segundo a General Compute, esse modelo permite alcançar velocidades muito superiores às encontradas em infraestruturas tradicionais baseadas em GPU.
A promessa de velocidade da General Compute
A empresa afirma que sua infraestrutura pode atingir até 950 tokens por segundo em determinados cenários, enquanto infraestruturas convencionais operam próximas de 100 a 120 tokens por segundo.
A companhia também divulga benchmarks internos mostrando throughput até sete vezes superior ao de ambientes tradicionais de inferência.
Essa velocidade se torna ainda mais importante em aplicações de baixa latência, como:
• agentes autônomos;
• IA de voz;
• copilotos de programação;
• atendimento automatizado;
• automação empresarial;
• sistemas multimodais.
Segundo Finn Puklowski, Chief Executive Officer da General Compute, quanto mais rápido um agente consegue consumir tokens, mais eficiente ele se torna.
A empresa acredita que a próxima geração da IA será dominada por agentes capazes de agir continuamente em tempo real, o que exige uma infraestrutura muito mais veloz do que a disponível atualmente.
Menor consumo energético
Outro ponto central da aposta em ASICs é a eficiência energética. Nos últimos anos, o crescimento da IA generativa aumentou o consumo de energia em data centers ao redor do mundo.
Grande parte desse consumo está associada às GPUs e aos sistemas de refrigeração líquida necessários para evitar superaquecimento.
A General Compute afirma que seus chips conseguem operar apenas com refrigeração a ar, eliminando a necessidade de resfriamento líquido.
Segundo os dados divulgados pela empresa, seus racks consomem cerca de 17 kW, enquanto estruturas equivalentes baseadas em GPUs podem ultrapassar 120 kW.
Além disso, a companhia trabalha com energia estimada em US$ 0,035 por kWh, valor significativamente abaixo da média comercial americana.
Paraguai e infraestrutura energética
Parte da estratégia da empresa envolve operar no Paraguai, aproveitando a energia hidrelétrica barata da região. Segundo a companhia, o custo energético local gira em torno de 3,3 centavos de dólar por kWh.
Outro diferencial é a possibilidade de reutilizar estruturas antigas de mineração de criptomoedas para criar data centers voltados para inference AI.
Como os ASICs da empresa utilizam refrigeração a ar, essa adaptação se torna mais simples e barata. A companhia afirma que isso pode reduzir drasticamente os custos operacionais da infraestrutura.
Compatibilidade com OpenAI
Outro fator estratégico da General Compute é a compatibilidade com APIs da OpenAI. Na prática, desenvolvedores podem migrar aplicações alterando apenas a base URL e a API key.
A empresa também oferece:
• APIs compatíveis com OpenAI;
• deploy customizado;
• infraestrutura dedicada;
• suporte para BYOM (Bring Your Own Model);
• integração com o OpenClaw.
O futuro da inferência de IA
A aposta da General Compute mostra que a próxima grande disputa da inteligência artificial pode não acontecer apenas nos modelos de linguagem, mas principalmente na infraestrutura que permite entregar IA em tempo real.
Ao investir em ASICs otimizados para inferência, a empresa tenta criar uma alternativa ao domínio das GPUs tradicionais no mercado de LLM inference.
Com a expansão dos agentes autônomos e da IA em tempo real, velocidade, eficiência energética e custo operacional devem se tornar fatores cada vez mais decisivos para empresas que dependem de inteligência artificial em larga escala.