A Empresa que foi o Cérebro das IAs e que, agora, Será o dos Robôs
Enquanto o mundo debate quem fará o melhor robô, a Nvidia aposta em ser o cérebro de todos eles.
Um robô humanoide que precisa pegar uma caixa, atravessar um corredor e desviar de um funcionário que cruza seu caminho enfrenta, na prática, o mesmo dilema que qualquer ser humano enfrenta dezenas de vezes por dia sem perceber, onde parte dessas tarefas exige que pensemos, e parte exige apenas que possamos reagir.
Quando você caminha até a cozinha para pegar um copo d’água, o plano é consciente, você sabe aonde ir, o que pegar e por quê. Mas os ajustes do seu corpo ao longo do caminho, como desviar da quina da mesa, equilibrar o peso ao abrir a geladeira, fechar os dedos na pressão exata para não derrubar o copo… tudo isso acontece sem que você precise pensar a respeito. São dois processos distintos, operando em velocidades diferentes, mas tão integrados que você sequer nota a fronteira entre um e outro. A Nvidia olhou para essa divisão e decidiu replicá-la para o mundo dos robôs, e o resultado foi o GR00T, um modelo que já funciona como cérebro para boa parte dos robôs humanoides em desenvolvimento no mundo.
A lógica, inspirada nos conceitos que o psicólogo Daniel Kahneman popularizou ao descrever os dois modos de pensamento humano, divide a inteligência do robô em duas camadas que trabalham juntas, mas em ritmos radicalmente diferentes. A primeira, chamada pela Nvidia de “Sistema 2”, é o estrategista. É ela que olha para o mundo através das câmeras do robô, ouve a instrução, “guarde esta caixa na prateleira de cima”, e elabora um plano. Para isso, esse sistema precisa entender onde está a caixa, onde está a prateleira, quais obstáculos existem no caminho e em que sequência mover o corpo para conectar um ponto ao outro. É um raciocínio deliberado, o equivalente a você parar, olhar a cozinha e decidir: “vou até a pia, pego o copo e abro a torneira”. Esse planejamento é lento de propósito, porque avaliar um determinado contexto, antecipar problemas e organizar uma sequência lógica de ações exige tempo, tanto para humanos quanto para máquinas.
A segunda camada, o “Sistema 1”, é o executor. Ela recebe o plano elaborado pelo estrategista e o transforma naquilo que um plano, sozinho, jamais conseguiria ser: movimentos reais, contínuos e, o mais importante, no mundo físico. E é aqui que a engenhosidade se revela, porque traduzir o simples “pegue a caixa” em uma sequência precisa de comandos para dezenas de juntas, dedos e articulações, ajustando cada uma delas a cada fração de segundo conforme o corpo se desloca, é um problema de complexidade extraordinária.
E a solução que a Nvidia encontrou é, em certo sentido, análoga à forma como um escultor trabalha: em vez de tentar calcular o movimento perfeito de uma só vez, o sistema parte de um rascunho grosseiro de trajetória e o refina repetidamente, como se estivesse esculpindo o gesto até que ele se torne suave, estável e preciso. O resultado é um movimento que parece fluido, quase orgânico, porque foi construído por várias aproximações sucessivas, e não por cálculo único. É, nos termos da própria Nvidia, o equivalente ao reflexo humano: você não pensa em cada músculo que aciona para pegar uma xícara de café. Seu corpo simplesmente executa, enquanto sua mente já está decidindo o próximo passo. Essa é exatamente a divisão de trabalho que o GR00T reproduz: o Sistema 2 planeja, o Sistema 1 reage, e os dois operam simultaneamente, treinados de forma conjunta, como uma cognição integrada com duas velocidades distintas.
Essa separação resolve um problema que, até então, tornava os robôs humanoides impressionantes em vídeos de demonstração, mas limitados na prática. Sistemas anteriores tendiam a operar em uma escala temporal única: ou eram rápidos o suficiente para reagir ao mundo físico, mas incapazes de raciocinar sobre tarefas complexas, ou conseguiam planejar com sofisticação, mas eram lentos demais para ajustar o corpo em tempo real quando algo inesperado acontecia, como um objeto fora do lugar ou uma pessoa cruzando o caminho. Era como ter um motorista que sabe perfeitamente qual rota seguir, mas não consegue desviar de um buraco na estrada, ou, inversamente, um motorista com reflexos excelentes que não faz ideia de para onde está indo.
O GR00T dissolve esse dilema ao dar a cada camada aquilo que ela faz melhor e ao mantê-las conectadas o suficiente para que o plano se adapte continuamente à realidade do corpo em movimento. Na versão mais recente do modelo, o GR00T N1.7, essa integração chegou ao ponto de permitir que um único comando em linguagem natural coordene o corpo inteiro, das pernas, aos braços e as mãos do robô, ao mesmo tempo.
Na prática, o robô pode, com esse sistema, caminhar até um objeto e, enquanto caminha, já ir posicionando os dedos para pegá-lo, sem precisar alternar entre um sistema que controla as pernas e outro que controla as mãos. É, pela primeira vez, uma inteligência unificada governando um corpo inteiro, da mesma forma que o seu cérebro governa o seu.
Mas talvez o aspecto mais estratégico do GR00T não esteja na arquitetura em si, e sim na maneira como a Nvidia ensina esse cérebro a funcionar. Treinar um modelo dessa natureza exige uma quantidade de dados que nenhuma empresa conseguiria gerar apenas com robôs físicos repetindo tarefas no mundo real, pois este é um processo lento, caro e arriscado, já que robôs quebram, erram e operam em ambientes controlados que não representam a complexidade do cotidiano.
A solução, diante disso, foi combinar três fontes distintas: dados reais coletados de robôs em operação, simulações geradas dentro da plataforma Omniverse (onde a Nvidia conseguiu criar o equivalente a nove meses contínuos de demonstrações humanas em apenas onze horas de processamento), e, de forma particularmente engenhosa, mais de vinte mil horas de vídeos em primeira pessoa de seres humanos realizando tarefas do dia a dia, captados por câmeras vestíveis, algo como filmar o mundo pelos olhos de quem está dobrando uma toalha, apertando um parafuso ou organizando uma prateleira.
A intuição por trás dessa abordagem é quase óbvia quando enunciada: humanos e robôs humanoides têm proporções corporais semelhantes, duas mãos, uma perspectiva visual frontal e um mundo repleto de objetos a serem manipulados. Se o modelo aprende a observar como mãos humanas interagem com o mundo, ele adquire uma espécie de vocabulário motor que transfere diretamente para o controle robótico, sem que cada comportamento precise ser demonstrado fisicamente em um robô. A Nvidia chama isso de “lei de escala da destreza”: quanto mais vídeo humano o modelo consome, melhor ele se torna em tarefas delicadas com os dedos, de forma previsível e mensurável. É, em essência, a transformação de um problema de dados em um problema de computação. E computação é exatamente o que a Nvidia vende.
E é nesse ponto que a análise precisa mudar de escala, porque o GR00T não é apenas um modelo de fundação para robôs. É, na verdade, uma peça central de uma estratégia de plataforma que a Nvidia vem executando já há algum tempo.
Vejamos: a Nvidia não fabrica robôs. Não compete com a Figure, a Agility Robotics, a AgiBot ou qualquer outro fabricante de hardware humanoide. O que ela faz é fornecer a infraestrutura completa que todos esses fabricantes precisam para desenvolver, treinar, simular e implantar inteligência em seus corpos mecânicos: as GPUs que aceleram o treinamento, a plataforma Omniverse que gera dados sintéticos em escala, o chip Jetson Thor que processa a inferência embarcada dentro do robô, e agora o GR00T como modelo aberto e comercialmente licenciado.
A analogia mais precisa para descrever esse movimento é com o que a Nvidia já fez no ecossistema de data centers para IA generativa: tornar-se a camada indispensável sobre a qual todo o restante é construído. Se a estratégia funcionar na robótica como funcionou nos modelos de linguagem, a Nvidia não precisará vender um único robô sequer para capturar uma parcela desproporcional do valor gerado por todos eles.
A escala do mercado que essa estratégia endereça dá a medida da aposta. As projeções variam conforme a fonte, mas todas convergem para um lugar só: até 2030, é possível que o mercado de robôs humanoides alcance as estimativas de ser precificado em até US$ 38 bilhões, e entre US$ 5 e US$ 9 trilhões até 2050. São números que exigem de nós certo ceticismo, mas que apontam para uma mesma leitura: o mercado financeiro já precifica a robótica humanoide como a próxima grande plataforma da tecnologia.
E, de certo modo, o motor por trás dessas projeções não é o especulativo, mas o demográfico. Afinal, os Estados Unidos projetam um déficit superior a dois milhões de trabalhadores industriais na próxima década. O Japão, com quase trinta por cento da população acima de sessenta e cinco anos, enfrenta uma lacuna de 2,4 milhões de profissionais de saúde até 2030. A China já destinou mais de dez bilhões de dólares a programas nacionais de humanoides, ao mesmo tempo em que responde por metade das instalações globais de robôs industriais.
Essa escassez vem do acúmulo de décadas de queda na natalidade, envelhecimento acelerado e uma mudança geracional que afasta profissionais jovens de funções manuais. E, diante disso, os robôs humanoides não estão sendo projetados para substituir trabalhadores por um mero capricho tecnológico. Eles estão sendo projetados porque, em um número crescente de setores, os trabalhadores simplesmente não existem em quantidade suficiente.
É nessa confluência que a decisão da Nvidia de abrir o GR00T sob licença comercial ganha sua dimensão mais consequente. Pois isso não é filantropia ou algo do tipo, é aceleração de ecossistema. Ao permitir que qualquer fabricante, de startups chinesas a gigantes como FANUC e KUKA, treine e implante políticas de controle sem construir um modelo de fundação do zero, a Nvidia replica na robótica o que o Android fez nos smartphones: democratiza a inteligência para que a diversidade de hardware expanda o mercado, enquanto ela própria captura valor na computação que sustenta tudo: treinamento, simulação e inferência. Cada robô que opera com o GR00T é, em última análise, um cliente da pilha da Nvidia, independentemente de quem fabricou o corpo.
Entre no canal Entrelinhas no WhatsApp e siga nosso Instagram: informação rápida, em tempo real, que tangibilizam as transformações.
Para quem observa esse movimento, a leitura mais relevante talvez não esteja nos robôs em si, mas no padrão que revelam. A Nvidia executa na robótica o mesmo modelo que a tornou dominante na era dos modelos de linguagem: não vender o produto final, mas ser a infraestrutura da qual todos os produtos finais dependem. É a mesma lógica que discutimos ao analisar o fosso competitivo das demais empresas de infraestrutura: o diferencial que importa não está no que o consumidor vê, mas na estrutura que torna o visível possível.
Quando Jensen Huang declara que “a era do big bang da IA física começou”, vemos a mais clara descrição de uma aposta de plataforma que, se bem-sucedida, posicionará a Nvidia como a camada de inteligência padrão de toda uma classe de máquinas que ainda não existe em escala, mas que a demografia, a economia e a tecnologia conspiram para tornar inevitável.
A questão que resta não é se os robôs humanoides chegarão. É quem capturará o valor quando chegarem. E a Nvidia não está apostando em construir o melhor robô. Está apostando em ser o cérebro de todos eles. Se a história da computação ensina alguma coisa, é que quem define a plataforma raramente precisa competir no produto.





