GPT-4o Mini é Mais barato. É Tão Bom?

A grande vantagem do negócio de software sempre foi que, depois de desenvolver o software, atender mais um cliente era efetivamente gratuito — com custo marginal zero. No entanto, a IA muda essa dinâmica. Os construtores pagam à OpenAI (ou seu provedor de escolha) para cada entrada e saída. Isso significa que alguns usuários avançados agora podem reduzir a economia de um negócio de software inteiro.

Conteúdo

A Evolução dos Modelos de IA: GPT-4o-Mini

A introdução do GPT-4o-Mini marca uma nova era na indústria de IA. Este modelo é 60% mais barato que o GPT-4 e supera o GPT-3.5 Turbo em todos os benchmarks. Além disso, é multimodal — pode receber entradas de imagem, vídeo e áudio e produzi-las como saídas, portanto não se limita a texto. À medida que os novos modelos se tornam cada vez mais capazes, o seu funcionamento torna-se cada vez mais dispendioso, o que aumenta o custo de API para os clientes. É por isso que o grande ecossistema de modelos de linguagem está mudando.

Vantagens do GPT-4o-Mini

Você pode imaginar que um modelo pequeno seria pior em tudo do que um modelo grande. Isso é vagamente verdade para modelos do mesmo vintage, mas como as APIs LLM estão avançando tão rapidamente, o GPT-4o-Mini é melhor na maioria das coisas do que os modelos principais de apenas alguns meses atrás. Por exemplo, não há mais razão para usar o GPT-3.5-turbo porque o GPT-4o-Mini é:

60% mais barato
Supera o 3.5-turbo em todos os benchmarks
É multimodal (pode receber entradas de imagem, vídeo e áudio e produzi-las como saídas, portanto não se limita apenas a texto)

A OpenAI não inventou o modelo rápido e barato. Muitos provedores de LLM agora oferecem um modelo principal caro e altamente capaz e um mais rápido, mais barato, mas menos capaz:

Antrópico oferece Claude Opus (carro-chefe) e Sonnet (pequeno)
Mistral oferece Mistral Large (carro-chefe) e Mistral Nemo (pequeno)
Google oferece Gemini Ultra (carro-chefe) e Gemini Nano (pequeno)
Meta oferece Llama 3.1 405B (carro-chefe) e Llama 3.1 8B (pequeno)

Implicações de Longo Prazo para Modelos Pequenos

A necessidade de menos potência de hardware somada ao menor custo contribuem para um futuro brilhante para LLMs menores.

Executando no Dispositivo

Pequenos modelos são frequentemente elogiados por sua capacidade de rodar no dispositivo, sem uma conexão com a internet. LLMs são matrizes enormes, e executá-los (sem mencionar treiná-los) requer muito hardware forte para alimentá-los. É por isso que OpenAI, Meta, Anthropic etc. rodam gigantes centros de dados cheios de GPUs que consomem muita energia.

Mas modelos menores exigem muito menos potência de hardware, o que significa que eles podem rodar localmente. Isso cria uma série de novos aplicativos para dispositivos locais ou ambientes de alta segurança. O OpenAI ainda não oferece suporte a isso, mas o Google, a Microsoft e a Apple estão rodando modelos no dispositivo para seus próprios produtos, e Llama 3 foi hackeado para ser executado no dispositivo.

Eles também permitem que os fornecedores de software reduzam seus custos executando os modelos de IA no dispositivo do usuário em vez de pagar por cada interação do usuário por meio de uma API. É por isso que acredito que esses modelos se tornarão cada vez mais predominantes. Muitas das tarefas que as empresas de software estão oferecendo como recursos de IA não exigem os recursos dos modelos principais.

Declínio da API Monolith

Mesmo nos primeiros dias de APIs de LLM, os fornecedores ofereciam endpoints que compensavam desempenho vs. latência vs. custo. Agora estamos vendo uma explosão cambriana de endpoints que reorganizam essas compensações.

Modelos pequenos oferecem uma alternativa atraente a outros modelos quando a complexidade da tarefa não é tão alta ou a importância da correção estrita não é tão grande, assim como os endpoints em lote podem ser usados quando a latência não é uma grande preocupação.

Mesmo que uma empresa queira continuar atendendo seus usuários com o modelo mais capaz para garantir a qualidade, as etapas intermediárias e a análise são melhor feitas com modelos pequenos como o GPT-4o-Mini. Isso ocorre porque há tantas interações que os custos aumentam muito rapidamente.

É possível afinar esses pequenos modelos para chegar perto do desempenho de modelos grandes, dentro de um domínio específico. A maneira de fazer isso é fazer um ajuste fino de um modelo pequeno usando as saídas de um modelo grande em sua tarefa de interesse (um processo chamado destilação aluno-professor). Esta é uma estratégia de fronteira, mas parece ser bastante eficaz.

Implicações de Curto Prazo para Modelos Pequenos

Há alguma especulação sobre para onde os mini modelos estão indo e como eles podem mudar o cenário da API LLM. Como o GPT-4o-Mini (e seus colegas de outras lojas de IA) está afetando o software de IA hoje?

Minha empresa, Barra de Comando, constrói um chatbot de IA que outras empresas incorporam em seus sites para interagir com os usuários. Então, somos uma empresa de camada entre as empresas de modelo de fundação e nossos clientes.

Com a introdução do GPT-4o-Mini, pudemos mudar quase imediatamente da execução de consultas não voltadas para o usuário (como um serviço que faz análise de sentimentos em chats de usuários) do GPT-4o ao 4o Mini.

Também estamos indo, além disso: para muitas consultas voltadas para o usuário final, estamos vendo o 4o-mini ter um desempenho tão bom quanto o 4o, então estamos começando a orquestrar certos tipos de consultas para o 4o-mini e podemos eventualmente torná-lo nosso modelo padrão para todas as consultas de usuário, exceto as mais complicadas. O efeito líquido em nossos negócios é que a parte OpenAI de nossa conta LLM provavelmente diminuirá em cerca de 50%. Isso é dezenas de milhares de dólares economizados, imediatamente.

É assim que é administrar uma empresa de IA de camadas hoje em dia: de vez em quando, a OpenAI aparece e lhe dá um presente de P&L.

Perguntas Frequentes

1. O que é o GPT-4o-Mini?

O GPT-4o-Mini é um modelo de IA menor e mais econômico desenvolvido pela OpenAI. Ele é 60% mais barato que o GPT-4 e supera o GPT-3.5 Turbo em todos os benchmarks. Além disso, é multimodal, capaz de processar entradas de imagem, vídeo e áudio.

2. Quais são as vantagens do GPT-4o-Mini?

As principais vantagens do GPT-4o-Mini incluem seu custo reduzido, desempenho superior em benchmarks e capacidade multimodal. Ele é ideal para tarefas menos complexas e pode ser executado localmente, reduzindo a dependência de APIs caras.

3. Como os modelos pequenos de IA estão mudando o mercado?

Os modelos pequenos de IA estão tornando a tecnologia mais acessível e econômica. Eles permitem que empresas reduzam custos ao executar modelos localmente e oferecem uma alternativa atraente para tarefas menos complexas.

4. Quais são as implicações de longo prazo para modelos pequenos de IA?

As implicações de longo prazo incluem uma maior adoção de modelos pequenos devido à sua eficiência e menor custo. Eles também podem levar ao declínio da API monolítica, com mais empresas optando por modelos menores para tarefas intermediárias.

5. Como os modelos pequenos de IA estão afetando as empresas de software hoje?

Os modelos pequenos de IA estão permitindo que empresas de software reduzam seus custos significativamente. Por exemplo, a Barra de Comando conseguiu reduzir sua conta de LLM em 50% ao adotar o GPT-4o-Mini para tarefas menos complexas.

Conclusão

A introdução do GPT-4o-Mini e outros modelos pequenos de IA está transformando a indústria de software. Com custos reduzidos e capacidades multimodais, esses modelos oferecem uma alternativa econômica e eficiente para tarefas menos complexas. A capacidade de executar esses modelos localmente também reduz a dependência de APIs caras, tornando a tecnologia de IA mais acessível.

À medida que mais empresas adotam esses modelos, podemos esperar uma maior inovação e eficiência no setor de software. A IA está evoluindo rapidamente, e os modelos pequenos estão liderando essa revolução, oferecendo soluções práticas e econômicas para uma ampla gama de aplicações.