Algumas das grandes empresas de inteligência artificial, incluindo OpenAI, Microsoft e Meta, estão recorrendo a um processo chamado “destilação” na corrida global para criar modelos de IA que sejam mais baratos para consumidores e empresas.
A técnica ganhou força depois que a DeepSeek, da China, a utilizou para construir modelos de IA poderosos e eficientes baseados em sistemas de código aberto lançados por concorrentes como Meta e Alibaba. O avanço colocou em dúvida se as big techs manteriam a liderança de IA, levando investidores de Wall Street a retirar bilhões de dólares do valor das ações das empresas do Vale do Silício.
Através da destilação, as empresas pegam um grande modelo de linguagem —chamado de modelo “professor”— que gera a próxima palavra provável em uma sentença. O modelo professor gera dados que então treinam um modelo “aluno” menor, ajudando a transferir rapidamente o conhecimento e as previsões do modelo maior para o menor.
Embora a destilação tenha sido amplamente usada por anos, avanços recentes levaram especialistas da indústria a acreditar que o processo será cada vez mais benéfico para startups que buscam maneiras econômicas de construir aplicações baseadas na tecnologia.
“A destilação é mágica”, disse Olivier Godement, chefe de produto da plataforma da OpenAI. “É um processo que essencialmente pega um modelo de fronteira muito grande e inteligente e usa esse modelo para ensinar outro menor… muito capaz em tarefas específicas que é super barato e super rápido de executar.”
Grandes modelos de linguagem como o GPT-4 da OpenAI, o Gemini do Google e o Llama da Meta requerem enormes quantidades de dados e poder computacional para desenvolver e manter. Embora as empresas não tenham revelado números precisos de quanto custa treinar grandes modelos, é provável que sejam centenas de milhões de dólares.
Graças à destilação, desenvolvedores e empresas podem acessar as capacidades desses modelos por uma fração do preço, permitindo que desenvolvedores de aplicativos executem modelos de IA rapidamente em dispositivos como laptops e smartphones.
Os desenvolvedores podem usar a plataforma da OpenAI para destilação, aprendendo com os grandes modelos de linguagem que sustentam produtos como o ChatGPT. O maior investidor da OpenAI, a Microsoft, usou o GPT-4 para destilar sua pequena família de modelos de linguagem Phi como parte de uma parceria comercial após investir quase US$ 14 bilhões (R$ 82,83 bilhões) na empresa.
No entanto, a startup com sede em San Francisco disse acreditar que a DeepSeek destilou os modelos da OpenAI para treinar seu concorrente, um movimento que seria contra seus termos de serviço, mas não apresentou provas. A DeepSeek não comentou sobre as alegações.
Embora a destilação possa ser usada para criar modelos de alto desempenho, especialistas apontam que eles são mais limitados.
“A destilação apresenta um interessante trade-off; se você torna os modelos menores, inevitavelmente reduz sua capacidade”, comentou Ahmed Awadallah da Microsoft Research, que afirmou que um modelo destilado pode ser projetado para ter um ótimo desempenho em tarefas como resumo de e-mails, por exemplo, “mas realmente não seria bom em mais nada.”
David Cox, vice-presidente de modelos de IA na IBM Research, disse que a maioria das empresas não precisa de um modelo massivo para executar seus produtos, e os modelos destilados são poderosos o suficiente para propósitos como chatbots de atendimento ao cliente ou para rodar em dispositivos menores como telefones.
“Sempre que você pode [torná-lo menos caro] e isso lhe dá o desempenho certo que você deseja, há muito pouca razão para não fazê-lo”, analisou.
Isso representa um desafio para muitos dos modelos de negócios das principais empresas de IA. Mesmo que os desenvolvedores usem modelos destilados de empresas como a OpenAI, eles custam muito menos para rodar, são menos caros para criar e, portanto, geram menos receita. Criadores de modelos como a OpenAI frequentemente cobram menos pelo uso de modelos destilados, pois eles exigem menos carga computacional.
No entanto, Godement da OpenAI argumentou que grandes modelos de linguagem ainda serão necessários para “tarefas de alta inteligência e alto risco” onde “as empresas estão dispostas a pagar mais por um alto nível de precisão e confiabilidade”. Ele acrescentou que grandes modelos também serão necessários para descobrir novas capacidades que podem então ser usadas para destilação para modelos menores.
Ainda assim, a empresa visa impedir que seus grandes modelos sejam destilados para treinar um concorrente. A OpenAI tem equipes monitorando o uso e pode remover o acesso de usuários que suspeita estarem gerando grandes quantidades de dados para exportar e treinar um rival, como aparentemente fez com contas que acredita estarem ligadas à DeepSeek. No entanto, grande parte dessa ação acontece retroativamente.
“A OpenAI tem tentado se proteger contra a destilação há muito tempo, mas é muito difícil evitá-la completamente”, comentou Douwe Kiela, CEO da Contextual AI, uma startup que constrói ferramentas de recuperação de informações para empresas.
A destilação também é uma vitória para os defensores de modelos abertos, onde a tecnologia é disponibilizada gratuitamente para que os desenvolvedores possam construir sobre ela. A DeepSeek também tornou seus modelos recentes abertos para desenvolvedores.
“Vamos usar [a destilação] e colocá-la em nossos produtos imediatamente”, destacou Yann LeCun, cientista-chefe de IA da Meta. “Essa é a ideia do código aberto. Você lucra com o progresso de todos e de todos os outros, desde que esses processos sejam abertos.”
A destilação também significa que os criadores de modelos podem gastar bilhões de dólares para avançar as capacidades dos sistemas de IA, mas ainda enfrentar concorrentes que muitas vezes alcançam rapidamente, como os lançamentos recentes da DeepSeek demonstram. Isso gera questionamentos sobre a vantagem do pioneiro na construção de LLMs quando suas capacidades podem ser replicadas em questão de meses.
“Em um mundo onde as coisas estão se movendo tão rápido… você poderia realmente gastar muito dinheiro, fazendo do jeito mais difícil, e então o resto do campo está logo atrás de você”, disse Cox da IBM. “Então, é um cenário de negócios interessante e complicado.”