Não faz muito tempo que a OpenAI exibiu o Sora, que impressionou e assustou muitas pessoas com sua capacidade de criar videoclipes (um tanto) realistas a partir de instruções de texto. A geração de imagens de IA foi muito aprimorada nos últimos meses, então, como você pode esperar, o próximo passo natural é o vídeo. O Google também está lançando seus próprios métodos de geração de vídeo, com novos modelos de IA sob a égide do Imagen 2 prometendo grandes coisas também.
O Google apresentou o Imagen 2, uma família de modelos dentro de sua plataforma Vertex AI. O Google foi criticado por seu modelo de geração de imagens dentro do Gemini ser uma espécie de lixo. Ele foi removido e, embora o Gemini não inclua o Imagen 2 (pelo menos não imediatamente), ele vem com uma série de melhorias que o tornam melhor para gerar imagens ou até mesmo vídeo.
As melhorias no Imagen 2 incluem recursos de pintura interna e externa, permitindo a manipulação de imagens, como remoção de elementos indesejados ou adição de novos componentes. A atualização mais significativa, entretanto, é a introdução de “imagens de texto para imagens ao vivo”, permitindo a criação de vídeos curtos a partir de entradas de texto.
No entanto, você deve ter em mente que este não é Sora. Em comparação com as ferramentas de geração de vídeo existentes, os recursos do Imagen 2 podem ser insuficientes em termos de resolução e opções de personalização. Teremos que ver como ele se sai no uso na vida real. Também é um detalhe técnico, mas gera “imagens ao vivo”, que são clipes curtos de 4 segundos. No entanto, ainda é um começo e pode servir de base para um modelo real de texto para vídeo nos próximos meses ou anos.
Para resolver as preocupações relacionadas aos deepfakes, o Google incorpora a tecnologia SynthID para aplicar marcas d’água criptográfica em imagens ao vivo, visando autenticidade e segurança. Apesar da ênfase do Google nas medidas de segurança, permanecem dúvidas sobre a eficácia da sua abordagem e a transparência no que diz respeito às fontes de dados de formação.
A ausência, por exemplo, de um mecanismo de exclusão para criadores cujo trabalho possa ser incluído nos dados de formação pode levantar dúvidas para alguns. Além disso, a política de indenização por IA generativa do Google não cobre imagens convertidas em texto ao vivo, deixando os clientes vulneráveis a possíveis reivindicações de direitos autorais.
Teremos que esperar e ver se o Google torna isso acessível publicamente de alguma forma. Poderemos ouvir mais quando o Google I/O for lançado.
Fonte: TechCrunch