Nikolas Weber
🔊 DeepMind Cria Sons para Vídeos
🎥 Runway Lança o Gen-3: Nova IA de Vídeo
📸 Fotógrafo Derrota Robôs em Competição de Arte IA
O Google DeepMind acaba de publicar uma nova pesquisa sobre o sistema de vídeo para áudio (V2A), capaz de gerar trilhas sonoras detalhadas e sincronizadas para vídeos — incluindo música, efeitos sonoros, diálogos e mais.
Detalhes:
Combinação de Dados: O V2A combina pixels de vídeo brutos com descrições de texto para produzir áudio realista que corresponda aos visuais e ao tom do vídeo.
Treinamento do Modelo: O modelo V2A foi treinado em vídeos, áudios, anotações de efeitos sonoros e transcrições de fala para aprender as associações entre eventos visuais e sonoros.
Testes com Profissionais: DeepMind está testando o modelo V2A com cineastas renomados e planeja realizar mais testes de segurança antes de disponibilizá-lo ao público.
Radar Insights:
A inovação do V2A da DeepMind representa um salto significativo na produção de conteúdo audiovisual, oferecendo uma solução para a lacuna de áudio em vídeos gerados por IA. Com a capacidade de criar trilhas sonoras completas e sincronizadas, cineastas e criadores de conteúdo poderão explorar novas formas de narrativa, enriquecendo a experiência do espectador com sons realistas e imersivos.
A Runway acaba de apresentar o Gen-3 Alpha, um novo e poderoso modelo de IA capaz de gerar clipes de vídeo altamente realistas de 10 segundos a partir de comandos de texto e imagens, trazendo melhorias em consistência, movimento e estrutura.
Detalhes:
Inovação de Ponta: O Gen-3 Alpha é o primeiro da nova série de modelos de próxima geração da Runway, treinado em uma infraestrutura multimodal de grande escala para aprender "modelos gerais do mundo".
Treinamento Avançado: O modelo é treinado tanto em imagens quanto em vídeos, integrando-se com ferramentas já existentes da Runway, como o Motion Brush e o modo Diretor, para edição avançada.
Capacidades Chave: Inclui personagens realistas, técnicas de câmera cinematográficas e transições mais suaves entre mudanças de cena.
Radar Insights:
Junho de 2024 tem sido o mês da aceleração dos vídeos gerados por IA. Entre a KLING, Luma e Runway lançando modelos públicos, e gigantes como o Sora da OpenAI e o Veo do Google aguardando nos bastidores — o vídeo generativo está em alta.
Em um acontecimento inusitado, um fotógrafo superou a IA ao submeter e ganhar um concurso de fotos para imagens geradas por IA com uma foto real. A obra de Miles Astray, "F L A M I N G O N E" (2022), que apresenta um flamingo rosa alongado com a cabeça escondida nas penas enquanto coçava a barriga em uma praia de areia branca, foi desqualificada da categoria de IA do 1839 Awards Color Photography Contest após ser premiada em terceiro lugar pelo júri e conquistar o voto popular.
Detalhes:
Foto Realista: A foto de Astray foi inscrita na categoria de IA para provar que o conteúdo humano ainda tem relevância, destacando que a natureza e seus intérpretes humanos podem superar as máquinas.
Desqualificação: Após ganhar o prêmio, Astray revelou ao júri que "F L A M I N G O N E" era de fato uma foto real. O 1839 Awards decidiu desqualificar a inscrição, uma decisão que o fotógrafo concordou.
Esse evento ocorre pouco mais de um ano após o fotógrafo alemão Boris Eldagsen ganhar um prêmio de fotografia da Sony com uma “foto” gerada por IA no DALL-E 2. Eldagsen, no entanto, optou por recusar o prêmio após revelar ao júri que havia usado IA.
Lily Fierman, co-fundadora e diretora da Creative Resource Collective, que gerencia o 1839 Awards, afirmou que, embora apreciem a mensagem poderosa de Miles, não seria justo com os outros concorrentes que seguiram as regras. Astray foi convidado a escrever sobre o tema para o 1839 Awards, demonstrando que não há ressentimentos entre as partes.
Radar Insights:
A ação de Miles Astray destaca a relevância contínua da fotografia humana e levanta questões importantes sobre a interseção entre arte e tecnologia. A decisão de Astray de submeter uma foto real em uma categoria de IA serve como um lembrete de que a criatividade e a emoção humanas não podem ser completamente replicadas por máquinas, reforçando o valor da interpretação humana na arte.
RADAR EXPRESS
A empresa de tecnologia de saúde Color acaba de fazer parceria com a OpenAI para criar um assistente de IA para ajudar os médicos a elaborar planos personalizados de rastreamento e tratamento do câncer – com o objetivo de reduzir drasticamente os atrasos no atendimento.
Luma apresentou novos recursos de controle em seu modelo de vídeo Dream Machine, incluindo a capacidade de mudar cenas rapidamente e editar personagens com precisão – lançando também a capacidade de estender vídeo e remover marcas d'água.
A Anthropic publicou uma nova pesquisa mostrando que os modelos de IA podem se envolver em “adulteração de recompensas”, aprendendo a enganar o sistema e conceder recompensas mais altas, mesmo sem treinamento específico.
A Adobe integrou novos recursos de IA do Firefly ao Acrobat, permitindo aos usuários criar e editar imagens em PDFs usando prompts de texto – adicionando também a capacidade de acessar um assistente de IA para obter insights, criação de conteúdo e muito mais.
A symmetrical and centralized image focusing on an astronaut running through a colorful alley in Rio de Janeiro. The astronaut is in the center, wearing a white space suit, standing out against the vibrant street art and murals on the walls. The alley is narrow, with cobblestone streets and a mix of traditional and modern architecture. The background is filled with bright, colorful details, creating a lively and dynamic atmosphere. The sky is clear, adding a bright, sunny ambiance to the scene --ar 16:9 --style raw
Midjourney