IA multimodal: o que é e como funciona

A IA generativa percorreu um longo caminho em apenas alguns anos, progredindo de respostas básicas de texto para prosa complexa. Os limites dessa tecnologia estão sendo empurrados ainda mais com o desenvolvimento da IA multimodal — uma forma de inteligência artificial que trabalha com mais do que apenas texto, ingerindo, processando e gerando vários tipos de dados ao mesmo tempo.

Definição de IA multimodal

IA multimodal se refere a um sistema de inteligência artificial que usa vários tipos de dados (incluindo texto, imagens, vídeo e áudio) para gerar conteúdo, formar insights e fazer previsões.

A IA multimodal está encontrando seu caminho em várias indústrias, que vão da saúde à robótica. E gigantes da tecnologia como Google, OpenAI, Anthropic e Meta estão lançando seus próprios modelos multimodais.

O que é IA multimodal?

IA multimodal se refere a um sistema de inteligência artificial que aproveita vários tipos (ou modalidades) de dados simultaneamente para formar insights, fazer previsões e gerar conteúdo.

Modelos multimodais manipulam informações como texto, imagens, vídeo, fala e muito mais para concluir uma série de tarefas, desde gerar uma receita com base em uma foto de comida até transcrever um clipe de áudio para vários idiomas.

Isso é diferente da maioria dos modelos de IA, que só podem lidar com um único modo de dados. Grandes modelos de linguagem Redes neurais convolucionais (LLMs) trabalham com dados de texto, por exemplo, enquanto redes neurais convolucionais (CNNs) trabalham com imagens.

A multimodalidade imita uma abordagem inatamente humana para entender o mundo, onde combinamos entradas sensoriais como visão, som e tato para formar uma percepção mais matizada da nossa realidade. Ao integrar vários tipos de dados em um único modelo, os sistemas de IA multimodais alcançam uma compreensão mais abrangente de seu ambiente.

“É realmente uma tentativa de replicar como os humanos percebem”, disse Aaron Myers, diretor de tecnologia da plataforma de recrutamento com tecnologia de IA Suited. “Temos cinco sentidos diferentes, todos nos dando dados diferentes que podemos usar para tomar decisões ou ações. Os modelos multimodais estão tentando fazer a mesma coisa.”

Multimodal vs. Unimodal

Modelos de IA multimodais podem trabalhar com vários tipos de dados ao mesmo tempo, enquanto modelos de IA unimodais são limitados a um único tipo de entrada de dados — e podem fornecer apenas saída nessa modalidade de dados específica. Por exemplo, o GPT-3.5, que alimenta a versão gratuita do ChatGPT, funciona apenas com entradas e saídas de texto, tornando-o unimodal; mas o GPT-4o, outro modelo do ChatGPT, pode manipular dados de texto, imagem e áudio, tornando-o multimodal.

Mais inovação em IAMotores de busca de IA para conhecer

Como a IA multimodal está sendo usada?

Estas são algumas áreas onde a IA multimodal está sendo aplicada hoje.

Chatbots

Os chatbots de IA equipados com multimodalidade podem responder aos usuários de forma mais eficaz do que suas contrapartes somente de texto, oferecendo respostas mais ricas e úteis. Por exemplo, um usuário pode colocar uma foto de sua planta doméstica morrendo e obter conselhos sobre como trazê-la de volta à vida, ou obter uma explicação detalhada de um vídeo ao qual ele vinculou.

Assistentes de IA

Assistentes de IA como Alexa da Amazon e Google Assistant existem por causa da IA multimodal. Esses dispositivos inteligentes podem ser controlados com comandos de voz simples, permitindo que os usuários abram imagens e vídeos específicos, recebam eventos atuais, instruções e informações gerais (em formatos de áudio e texto) e até mesmo ajustem a iluminação e a temperatura em suas casas.

Assistência médica

O campo médico requer a interpretação de várias formas de dados, incluindo imagens médicas, notas clínicas, registros eletrônicos de saúde e exames laboratoriais. Modelos de IA unimodais realizam tarefas específicas de assistência médica dentro de modalidades específicas, como analisar raios-X ou identificar variações genéticas. E LLMs são frequentemente usados para ajudar a responder perguntas relacionadas à saúde em termos simples. Agora, os pesquisadores estão começando a trazer a IA multimodal para o grupo, desenvolvendo novas ferramentas que combinam dados de todas essas fontes díspares para ajudar a fazer diagnósticos médicos.

Carros autônomos

Carros autônomos processam e interpretam dados de várias fontes, graças à IA multimodal. Câmeras fornecem informações visuais sobre o ambiente do veículo, o radar detecta objetos e sua velocidade, enquanto o LiDAR mede as distâncias entre eles, e o GPS fornece dados de localização e navegação. Ao reunir todos esses dados e analisá-los, os modelos de IA podem entender os arredores do carro em tempo real e reagir de acordo — eles podem detectar obstáculos, prever onde outros veículos ou pedestres estarão e decidir quando dirigir, frear ou acelerar.

Robótica

Robôs equipados com IA multimodal integram dados de câmeras, microfones e sensores de profundidade, permitindo que eles percebam seu ambiente com mais precisão e respondam da mesma forma. Por exemplo, eles podem usar câmeras para ver e reconhecer objetos, ou microfones para entender comandos falados. Eles podem até ser fixados com sensores que lhes dão uma aparência de tato, olfato e paladar, dando-lhes os cinco sentidos completos que os humanos têm, disse Brendan Englot, professor associado do departamento de engenharia mecânica do Stevens Institute of Technology. Seja um robô humanoide ou um cobot em uma linha de montagem, a IA multimodal permite que robôs de todos os tipos naveguem efetivamente em ambientes diversos.

Mais sobre RobóticaO Futuro dos Robôs e da Robótica

Benefícios da IA multimodal

Melhor compreensão do contexto

À medida que aprendem, os modelos multimodais integram e analisam uma ampla gama de tipos de dados simultaneamente, o que lhes dá uma compreensão contextual mais completa de um determinado assunto do que cada tipo de dado individual seria capaz de transmitir por si só.

Por exemplo, se um modelo multimodal for solicitado a gerar um vídeo de um leão, ele não verá apenas a palavra “leão” como uma sequência de letras — ele saberá como é a aparência de um leão, como ele se move e como é o rugido de um leão.

Resultados mais precisos

Como os modelos multimodais são projetados para reconhecer padrões e conexões entre diferentes tipos de dados, eles tendem a entender e interpretar informações com mais precisão.

“Posso ser mais preciso em minhas previsões não apenas analisando texto, mas também analisando imagens para fortalecer os resultados. Ou talvez responder perguntas que eu não conseguia responder antes e que são melhor respondidas por imagens do que por texto”, explicou Myers.

Mesmo assim, a IA multimodal ainda é capaz de errar e pode produzir resultados tendenciosos ou prejudiciais.

Capaz de uma gama mais ampla de tarefas

Os sistemas de IA multimodais podem lidar com uma gama maior de tarefas do que os unimodais. Dependendo do modelo específico, eles podem converter prompts de texto em imagens geradas por IA, explicar o que está acontecendo em um vídeo em linguagem simples, gerar um clipe de áudio com base em uma foto e muito mais. Enquanto isso, os sistemas unimodais só são capazes de fazer uma dessas tarefas.

Melhor compreensão da intenção do usuário

A multimodalidade permite que os usuários escolham como desejam interagir com um sistema de IA, em vez de ficarem presos a um único modo de comunicação.

“Não importa se você está expressando [yourself] em movimentos, em palavras, se você estiver digitando algo, escrevendo algo, fazendo gestos, apontando para coisas”, disse Juan Jose Lopez Murphy, chefe de ciência de dados e IA na empresa de serviços de TI Globant. Os sistemas de IA multimodais dão aos usuários “muito mais controle sobre o que eles querem expressar, o que significa que você está capturando a verdadeira intenção deles”.

Experiência de usuário mais intuitiva

Como os sistemas multimodais permitem que os usuários se expressem de várias maneiras diferentes, dependendo do que parece natural para eles, sua experiência de usuário “parece muito mais intuitiva”, disse Myers. Por exemplo, em vez de ter que descrever o som do motor do carro para obter conselhos sobre o que está errado com ele, um usuário pode simplesmente carregar um clipe de áudio. Ou, em vez de listar todos os alimentos em sua cozinha para sugestões de receitas, eles podem carregar fotos de sua geladeira e despensa.

Desafios da IA multimodal

Requer mais dados

Como trabalham com múltiplas modalidades diferentes, os modelos multimodais exigem muitos dados para funcionar corretamente. Por exemplo, se um modelo tem como objetivo converter texto em imagens e vice-versa, então ele precisa ter um conjunto robusto de dados de texto e imagem.

A quantidade de dados necessária também é dimensionada com a quantidade de parâmetros (variáveis) no modelo, disse Myers. “À medida que o número de parâmetros aumenta — o que acontece conforme você adiciona modalidades — mais dados você precisa.”

Disponibilidade limitada de dados

Nem todos os tipos de dados estão facilmente disponíveis, especialmente os tipos de dados menos convencionais, como temperatura ou movimentos das mãos. A internet — uma fonte importante de dados de treinamento para muitos modelos de IA — é amplamente composta de dados de texto, imagem e vídeo. Então, se você quiser fazer um sistema que possa processar qualquer outro tipo de dado, você terá que comprá-lo de repositórios privados ou fazê-lo você mesmo.

Os dados podem ser difíceis de alinhar

Alinhar adequadamente vários tipos de dados diferentes é frequentemente difícil. Os dados vêm em tamanhos, escalas e estruturas variadas, exigindo processamento e integração cuidadosos para garantir que funcionem juntos de forma eficaz em um único sistema de IA.

Computacionalmente intensivo e caro

A multimodalidade é, em grande parte, possível apenas graças aos recursos de computação sem precedentes disponíveis hoje. Esses modelos precisam ser capazes de processar petabytes de diversos tipos de dados simultaneamente, exigindo poder computacional substancial que frequentemente leva ao uso significativo de carbono e água. Além disso, a implantação de IA multimodal em aplicativos requer uma infraestrutura de hardware robusta, aumentando ainda mais suas demandas computacionais e pegada ambiental.

Também é caro. Modelos unimodais são caros por si só — há rumores de que o GPT-3 custou à OpenAI quase US$ 5 milhões, e estima-se que a Meta tenha gasto US$ 20 milhões no Llama 2. Modelos multimodais são “várias ordens de magnitude” mais caros do que esses, disse Ryan Gross, chefe de dados e aplicativos da empresa de serviços em nuvem Caylent.

Pode piorar problemas existentes de IA generativa

Muitos dos problemas com modelos regulares de IA generativa — a saber, viés, preocupações com privacidade, alucinações — também são prevalentes em modelos multimodais. A IA multimodal pode, na verdade, exacerbar esses problemas.

O viés é quase inevitável em conjuntos de dados, então combinar dados de várias fontes pode levar a resultados tendenciosos mais pronunciados e disseminados. E processar diversos tipos de dados pode envolver informações sensíveis, aumentando as apostas para privacidade e segurança de dados. Além disso, a complexidade de integrar vários tipos de dados pode aumentar o risco de gerar informações imprecisas ou enganosas.

“Quando você expande para modelos multimodais, você agora expande o número de tarefas que podem ser feitas”, disse Myers. “E haverá novos problemas que podem ser específicos para esses casos.”

Essas questões representam riscos ainda maiores em aplicações de robótica, pois suas ações têm consequências diretas no mundo físico.

“Seu robô — seja um drone, um carro ou um humanoide — tomará algum tipo de ação no mundo físico que terá consequências físicas”, disse Englot. “Se você não tiver nenhuma proteção em um modelo que esteja controlando um robô, é possível que alucinações ou interpretações incorretas dos dados possam levar o robô a tomar ações que podem ser perigosas ou prejudiciais.”

Mais sobre IA generativa5 lições que aprendi ao construir uma plataforma de IA generativa

Como funciona a IA multimodal?

Modelos multimodais são frequentemente construídos em arquiteturas transformadoras, um tipo de rede neural que calcula a relação entre pontos de dados para entender e gerar sequências de dados. Eles processam “toneladas e toneladas” de dados de texto, removem algumas das palavras e então preveem quais são as palavras faltantes com base no contexto das palavras ao redor, disse Gross. Eles fazem a mesma coisa com imagens, áudio e quaisquer outros tipos de dados que o modelo foi projetado para entender.

Isso é realizado por meio de um processo chamado incorporação, onde os dados brutos são codificados em formatos numéricos (vetores) que o sistema pode entender mais facilmente. e trabalhar com. Por exemplo, dados de texto são divididos em tokens individuais (palavras, letras, etc.), que são transformados em números. Dados de áudio são segmentados e divididos em recursos como tom e amplitude, que também são transformados em números. Todos esses números são então alimentados no transformador, que captura os relacionamentos e o contexto dentro e entre as diferentes modalidades.

Em casos raros em que o modelo é “nativamente multimodal” — construído especificamente para lidar com vários tipos de dados — a incorporação acontece de uma só vez por meio de um processo chamado fusão inicial, que combina, alinha e processa os dados brutos de cada modalidade para que todos tenham a mesma (ou similar) representação matemática. Então o modelo não só aprende a palavra “pato”, por exemplo, mas também a aparência e o som de um pato. Em teoria, isso permite que o modelo não seja apenas bom em reconhecer uma foto de um pato, o grasnar de um pato ou as letras “PATO”, mas também o “conceito” mais amplo do que é um pato, disse Murphy.

Essa abordagem não é fácil, no entanto, e é por isso que muitos sistemas multimodais que existem hoje mesclam informações de várias modalidades em um estágio posterior por meio de um processo chamado fusão tardia — depois que cada tipo de dado foi analisado e codificado separadamente. A fusão tardia oferece uma maneira de combinar e comparar diferentes tipos de dados, que variam em aparência, tamanho e significado em suas respectivas formas, disse Myers. “Como você faz com que eles conversem entre si de uma forma que faça sentido? Essa é a lacuna que os modelos de fusão preenchem.”

Após o desenvolvimento de um modelo multimodal, seus resultados são então ajustados usando técnicas como aprendizagem por reforço com feedback humano (RLHF) e red teaming, em um esforço para reduzir alucinações, preconceitos, riscos de segurança e outros efeitos nocivos. respostas. Uma vez feito isso, o modelo deve se comportar de forma semelhante a um LLM, mas com a capacidade de lidar com outros tipos de dados além de apenas texto.

Olhando para a frenteComo a inteligência artificial está mudando o mundo

O futuro da IA multimodal

Eventualmente, muitos especialistas acreditam que a multimodalidade pode ser a chave para alcançar a inteligência artificial geral (AGI) — uma forma teórica de IA que entende, aprende e executa qualquer tarefa intelectual tão bem quanto um ser humano. Ao combinar vários tipos de dados, os modelos multimodais podem desenvolver uma compreensão mais holística e abrangente do mundo ao seu redor, o que pode, por sua vez, permitir que ele aplique conhecimento em uma ampla gama de tarefas tão bem quanto (ou até melhor que) um ser humano.

“Na busca por uma inteligência artificial que se pareça um pouco mais com a inteligência humana, ela tem que ser multimodal”, disse Englot. “Ela tem que processar tantas modalidades de entrada quanto um humano poderia — visão, linguagem, toque, ação física — e ser capaz de responder a todas essas coisas com a mesma inteligência que um humano pode.”

O ChatGPT é uma IA multimodal?

GPT-4o e GPT-4, dois modelos que alimentam o ChatGPT, são multimodais — então sim, o ChatGPT é capaz de ser multimodal. No entanto, o GPT-3.5, que alimenta a versão gratuita do chatbot, funciona apenas com entradas e saídas de texto, tornando-o unimodal.

O que é IA unimodal vs. multimodal?

A IA unimodal só pode processar e gerar um único tipo de dado, como apenas texto ou apenas imagens. Enquanto isso, a IA multimodal pode trabalhar com vários tipos de dados ao mesmo tempo.

Qual é a diferença entre IA generativa e IA multimodal?

IA multimodal é uma forma de IA generativa. Sistemas de IA multimodal usam modelos de IA generativa para processar informações de vários tipos de dados (texto, imagens, vídeos, áudio, etc.) de uma só vez, e converter essas informações em uma ou mais saídas.

Qual é um exemplo de IA multimodal?

Um exemplo comum de IA multimodal é geradores de imagensque produzem imagens com base em prompts de texto. Em alguns casos, esses sistemas também funcionam ao contrário, gerando conteúdo baseado em texto a partir de entradas visuais, como fotos ou gráficos.