🎥 Anime Avatares com Movimentos Corporais Realistas

🎥 Anime Avatares com Movimentos Corporais Realistas

🎥 Anime Avatares com Movimentos Corporais Realistas

Nikolas Weber

Mar 18, 2024

Mar 18, 2024

Summary

Summary

🎥 VLOGGER do Google Dá Vida a Avatares

📖 Elon Musk Torna o Grok-1 Open-Source

🤩 Apple Revela Novos Modelos de IA MM1

Pesquisadores do Google acabaram de desenvolver o VLOGGER, um novo modelo de IA capaz de gerar vídeos falantes fotorealistas de avatares com movimento completo do corpo superior, a partir de apenas uma imagem estática e um clipe de áudio.

Detalhes Inovadores:

  • Avatar Controlável: VLOGGER cria um avatar controlável que captura semelhanças e movimentos.

  • Treinamento Avançado: O modelo foi treinado em um grande conjunto de dados multimídia contendo 800.000 vídeos de pessoas falando, com rótulos para cada parte do rosto e corpo.

  • Aplicações Potenciais: Incluem dublagem de vídeos em outros idiomas, criação de avatares realistas para jogos ou assistentes e habilitação de videochats com baixa largura de banda.

Por que Isso Importa:

Seja possibilitando realismo para assistentes de IA, permitindo dublagem de vídeo em tempo real em diversos idiomas ou permitindo que façamos videochats como nossos avatares favoritos — modelos como o VLOGGER apontam para um futuro onde as fronteiras entre nossos eus físicos e digitais se confundem de maneiras cativantes e inovadoras.

Elon Musk e xAI acabaram de disponibilizar os pesos e a arquitetura de seu massivo modelo de linguagem com 314 bilhões de parâmetros, Grok-1, sob a licença open-source Apache 2.0.

Detalhes da Liberação:

  • Modelo Mixture-of-Experts: Grok-1 é um modelo Mixture-of-Experts, com apenas 25% de seus pesos ativos para qualquer token de entrada, possibilitando um cálculo mais eficiente.

  • Checkpoint Pré-treinado: O modelo liberado é o checkpoint bruto e pré-treinado de outubro de 2023, não ajustado para tarefas específicas.

  • Recursos para Desenvolvedores: xAI disponibilizou instruções em seu repositório no GitHub para desenvolvedores iniciarem, além de publicar o modelo no Hugging Face.

Por que Isso Importa:

Ao tornar um dos maiores LLMs do mundo open-source, xAI está colocando em prática a batalha moral percebida por Musk contra os modelos fechados da OpenAI. Embora as capacidades do Grok ainda não ultrapassem novas barreiras, a ação representa mais uma grande vitória para o desenvolvimento de IA colaborativo e transparente.

Pesquisadores da Apple acabaram de publicar um novo artigo revelando o MM1, uma família de modelos de IA multimodal que combinam entendimento visual e linguístico para habilitar capacidades avançadas.

Detalhes Inovadores:

  • Treinamento Específico: Os modelos MM1 foram treinados em uma mistura cuidadosamente selecionada de legendas de imagens, dados de imagem-texto e dados apenas de texto.

  • Modelo de 30B de Parâmetros: O maior modelo, com 30 bilhões de parâmetros, demonstrou forte capacidade de aprender com apenas alguns exemplos e raciocinar sobre múltiplas imagens.

  • Impacto do Processamento de Imagem: A pesquisa descobriu que escalar o processamento de imagem do modelo teve o maior impacto no desempenho.

Por que Isso Importa:

A profundidade dos detalhes e a falta de alarde para este lançamento de modelo marcam uma grande partida do sigilo típico da Apple — e uma grande vitória para o código aberto. Com um modelo capaz, agora oficialmente uma realidade, será finalmente a hora de Siri evoluir?

RADAR EXPRESS

O pesquisador da OpenAI, Leopold Aschenbrenner, postou que o ano passado desde o lançamento do GPT-4 será “os 12 meses mais lentos de progresso da IA ​​​​por algum tempo”.

O rapper Tyler The Creator disse em uma entrevista que não tem medo do aumento da IA, dizendo que a tecnologia nunca alcançará suas habilidades criativas.

A Apple está em "negociações ativas" com o Google para trazer a tecnologia de IA generativa Gemini para o iPhone, relata a Bloomberg, e também considerou usar o ChatGPT da OpenAI.

Traduza seus vídeos sem esforço, mantendo a voz original, com IA que combina perfeitamente os movimentos labiais do locutor com o novo idioma.

Traduza seus vídeos sem esforço, mantendo a voz original, com IA que combina perfeitamente os movimentos labiais do locutor com o novo idioma.

Discover More Tools There

Discover More Tools There

Discover More Tools There

Cover Prompt

Cover Prompt

Cover Prompt

Create a wide, impactful image that encapsulates the groundbreaking capabilities of Google's VLOGGER AI model. The image should depict a photorealistic talking avatar, generated from a still image and an audio clip, displaying full upper body motion. This avatar should appear to be engaging with the viewer, symbolizing the advanced interaction and realism VLOGGER brings to digital communication. The background should be futuristic, conveying the innovative leap VLOGGER represents in blurring the lines between our physical and digital identities. --ar 16:9

Midjourney

Thank you for reading!