{"id":129612,"date":"2026-05-18T16:59:29","date_gmt":"2026-05-18T19:59:29","guid":{"rendered":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/?p=129612"},"modified":"2026-05-18T16:59:29","modified_gmt":"2026-05-18T19:59:29","slug":"general-compute-substituir-gpus-inferencia-ia","status":"publish","type":"post","link":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/releases\/releases-geral\/general-compute-substituir-gpus-inferencia-ia\/","title":{"rendered":"Por que a General Compute aposta em ASICs para acelerar LLM inference"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/www.broadcast.com.br\/wp-content\/uploads\/2026\/05\/general-compute-inferencia-ia-asics.png\" alt=\"General Compute aposta em ASICs para acelerar infer\u00eancia de intelig\u00eancia artificial.\" class=\"wp-image-39659\"\/><figcaption class=\"wp-element-caption\">General Compute aposta em ASICs para acelerar infer\u00eancia de intelig\u00eancia artificial. General Compute \/ Divulga\u00e7\u00e3o<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">O crescimento acelerado da intelig\u00eancia artificial generativa est\u00e1 criando uma nova corrida tecnol\u00f3gica no mercado global: a busca por infraestruturas mais r\u00e1pidas, eficientes e econ\u00f4micas para <a href=\"https:\/\/www.generalcompute.com\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>LLM inference<\/strong><\/a>.\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Deste modo, empresas do setor passaram a disputar quem consegue entregar respostas em tempo real com menor lat\u00eancia e menor custo operacional.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A <strong>General Compute<\/strong> decidiu seguir um caminho diferente da maior parte do mercado. Em vez de depender exclusivamente de GPUs tradicionais, a empresa aposta em ASICs \u2014 chips desenvolvidos especificamente para workloads de infer\u00eancia de intelig\u00eancia artificial.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Segundo a companhia, o futuro da IA n\u00e3o depende apenas de modelos mais inteligentes, mas principalmente de infraestrutura capaz de entregar velocidade em larga escala.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>O que \u00e9 LLM inference?<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">LLM inference \u00e9 o processo em que modelos de linguagem j\u00e1 treinados come\u00e7am a gerar respostas para usu\u00e1rios finais.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Toda vez que algu\u00e9m conversa com um chatbot, utiliza um copiloto de programa\u00e7\u00e3o ou interage com um agente de IA, existe um sistema realizando infer\u00eancia em tempo real.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Esse processo envolve leitura de prompts, processamento de contexto, c\u00e1lculo probabil\u00edstico de tokens e gera\u00e7\u00e3o cont\u00ednua de respostas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Com o crescimento da IA generativa, o volume de infer\u00eancia aumentou drasticamente. Empresas passaram a precisar de infraestrutura capaz de suportar milh\u00f5es de solicita\u00e7\u00f5es simult\u00e2neas com baixa lat\u00eancia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00c9 justamente nesse ponto que a General Compute acredita existir um gargalo nas arquiteturas atuais baseadas em GPUs.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>A limita\u00e7\u00e3o das GPUs tradicionais<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Durante anos, GPUs dominaram o mercado de intelig\u00eancia artificial. Empresas como a NVIDIA se tornaram refer\u00eancia mundial ao fornecer hardware para treinamento de modelos de IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">No entanto, a General Compute argumenta que GPUs foram originalmente criadas para renderiza\u00e7\u00e3o gr\u00e1fica e jogos, n\u00e3o para inference AI em larga escala.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Segundo o posicionamento da empresa, GPUs carregam d\u00e9cadas de arquitetura legada adaptada posteriormente para IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Na vis\u00e3o da startup, isso cria limita\u00e7\u00f5es relacionadas a:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 consumo energ\u00e9tico;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 movimenta\u00e7\u00e3o de mem\u00f3ria;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 lat\u00eancia;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 refrigera\u00e7\u00e3o;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 efici\u00eancia por token gerado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A empresa afirma que o mercado de IA acabou utilizando GPUs como solu\u00e7\u00e3o padr\u00e3o porque elas eram o hardware dispon\u00edvel, e n\u00e3o necessariamente o ideal para infer\u00eancia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>ASICs como alternativa para inference AI<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Para tentar resolver esse problema, a General Compute decidiu apostar em ASICs (Application-Specific Integrated Circuits).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Diferentemente das GPUs, ASICs s\u00e3o chips criados especificamente para determinadas tarefas computacionais.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">No caso da empresa, os chips foram projetados exclusivamente para workloads de infer\u00eancia de modelos de linguagem. Assim sendo, significa que toda a arquitetura \u00e9 otimizada para:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 gera\u00e7\u00e3o r\u00e1pida de tokens;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 redu\u00e7\u00e3o de gargalos de mem\u00f3ria;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 menor consumo energ\u00e9tico;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 menor lat\u00eancia;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 processamento cont\u00ednuo em tempo real.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Segundo a General Compute, esse modelo permite alcan\u00e7ar velocidades muito superiores \u00e0s encontradas em infraestruturas tradicionais baseadas em GPU.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>A promessa de velocidade da General Compute<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">A empresa afirma que sua infraestrutura pode atingir at\u00e9 950 tokens por segundo em determinados cen\u00e1rios, enquanto infraestruturas convencionais operam pr\u00f3ximas de 100 a 120 tokens por segundo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A companhia tamb\u00e9m divulga benchmarks internos mostrando throughput at\u00e9 sete vezes superior ao de ambientes tradicionais de infer\u00eancia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Essa velocidade se torna ainda mais importante em aplica\u00e7\u00f5es de baixa lat\u00eancia, como:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 agentes aut\u00f4nomos;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 IA de voz;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 copilotos de programa\u00e7\u00e3o;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 atendimento automatizado;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 automa\u00e7\u00e3o empresarial;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 sistemas multimodais.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Segundo Finn Puklowski, Chief Executive Officer&nbsp; da General Compute, quanto mais r\u00e1pido um agente consegue consumir tokens, mais eficiente ele se torna.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A empresa acredita que a pr\u00f3xima gera\u00e7\u00e3o da IA ser\u00e1 dominada por agentes capazes de agir continuamente em tempo real, o que exige uma infraestrutura muito mais veloz do que a dispon\u00edvel atualmente.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Menor consumo energ\u00e9tico<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Outro ponto central da aposta em ASICs \u00e9 a efici\u00eancia energ\u00e9tica. Nos \u00faltimos anos, o crescimento da IA generativa aumentou o consumo de energia em data centers ao redor do mundo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Grande parte desse consumo est\u00e1 associada \u00e0s GPUs e aos sistemas de refrigera\u00e7\u00e3o l\u00edquida necess\u00e1rios para evitar superaquecimento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A General Compute afirma que seus chips conseguem operar apenas com refrigera\u00e7\u00e3o a ar, eliminando a necessidade de resfriamento l\u00edquido.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Segundo os dados divulgados pela empresa, seus racks consomem cerca de 17 kW, enquanto estruturas equivalentes baseadas em GPUs podem ultrapassar 120 kW.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Al\u00e9m disso, a companhia trabalha com energia estimada em US$ 0,035 por kWh, valor significativamente abaixo da m\u00e9dia comercial americana.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Paraguai e infraestrutura energ\u00e9tica<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Parte da estrat\u00e9gia da empresa envolve operar no Paraguai, aproveitando a energia hidrel\u00e9trica barata da regi\u00e3o. Segundo a companhia, o custo energ\u00e9tico local gira em torno de 3,3 centavos de d\u00f3lar por kWh.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Outro diferencial \u00e9 a possibilidade de reutilizar estruturas antigas de minera\u00e7\u00e3o de criptomoedas para criar data centers voltados para inference AI.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Como os ASICs da empresa utilizam refrigera\u00e7\u00e3o a ar, essa adapta\u00e7\u00e3o se torna mais simples e barata. A companhia afirma que isso pode reduzir drasticamente os custos operacionais da infraestrutura.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Compatibilidade com OpenAI<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Outro fator estrat\u00e9gico da General Compute \u00e9 a compatibilidade com APIs da OpenAI. Na pr\u00e1tica, desenvolvedores podem migrar aplica\u00e7\u00f5es alterando apenas a base URL e a API key.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A empresa tamb\u00e9m oferece:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 APIs compat\u00edveis com OpenAI;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 deploy customizado;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 infraestrutura dedicada;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 suporte para BYOM (Bring Your Own Model);<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u2022 integra\u00e7\u00e3o com o OpenClaw.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>O futuro da infer\u00eancia de IA<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">A aposta da General Compute mostra que a pr\u00f3xima grande disputa da intelig\u00eancia artificial pode n\u00e3o acontecer apenas nos modelos de linguagem, mas principalmente na infraestrutura que permite entregar IA em tempo real.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ao investir em ASICs otimizados para infer\u00eancia, a empresa tenta criar uma alternativa ao dom\u00ednio das GPUs tradicionais no mercado de LLM inference.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Com a expans\u00e3o dos agentes aut\u00f4nomos e da IA em tempo real, velocidade, efici\u00eancia energ\u00e9tica e custo operacional devem se tornar fatores cada vez mais decisivos para empresas que dependem de intelig\u00eancia artificial em larga escala.<\/p>\n","protected":false},"excerpt":{"rendered":"Startup aposta em ASICs para tornar a infer\u00eancia de IA mais r\u00e1pida, eficiente e sustent\u00e1vel que sistemas baseados em GPUs.","protected":false},"author":17,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[132,34],"tags":[],"class_list":["post-129612","post","type-post","status-publish","format-standard","hentry","category-releases","category-releases-geral"],"acf":[],"_links":{"self":[{"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/posts\/129612","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/users\/17"}],"replies":[{"embeddable":true,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/comments?post=129612"}],"version-history":[{"count":1,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/posts\/129612\/revisions"}],"predecessor-version":[{"id":129613,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/posts\/129612\/revisions\/129613"}],"wp:attachment":[{"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/media?parent=129612"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/categories?post=129612"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bluestudio.estadao.com.br\/agencia-de-comunicacao\/wp-json\/wp\/v2\/tags?post=129612"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}