Nikolas Weber
🙌 OpenAI Prepara Lançamento Público do SORA
🦾 Novo Robô da Figure Dá um Corpo ao ChatGPT
🕹️ DeepMind Treina Agente de IA para Jogos
A OpenAI está se preparando para tornar seu gerador de vídeo texto-para-vídeo, Sora, disponível ao público ainda este ano, prometendo revolucionar a criação de conteúdo com hiperrealismo baseado em prompts de texto. Em uma entrevista ao The Wall Street Journal, Mira Murati, CTO da OpenAI, compartilhou insights sobre o desenvolvimento de Sora e abordou as crescentes preocupações com direitos autorais e a produção de desinformação.
Pontos Principais:
Disponibilidade: Sora estará acessível “este ano”, possivelmente em alguns meses, inicialmente disponibilizado apenas para artistas visuais, designers e cineastas.
Capacidades Futuras: OpenAI planeja adicionar áudio aos vídeos gerados pelo Sora, ampliando o realismo das cenas e permitindo que os usuários editem o conteúdo dos vídeos, uma vez que as ferramentas de IA nem sempre criam imagens precisas.
Treinamento e Dados: Murati foi reservada sobre os detalhes dos dados usados para treinar Sora, mencionando apenas que foram utilizados dados públicos ou licenciados, incluindo conteúdo da Shutterstock, parceira da OpenAI.
Custo e Acesso: A ferramenta, que é mais cara para operar, visa estar disponível a custos semelhantes ao DALL-E, modelo de texto-para-imagem da companhia.
Preocupações com Desinformação: À medida que nos aproximamos das eleições presidenciais de 2024, aumentam as preocupações sobre o potencial de ferramentas de IA gerativa em criar desinformação. Sora provavelmente seguirá políticas semelhantes ao DALL-E, evitando a produção de imagens de figuras públicas e incluindo uma marca d'água nos vídeos para diferenciá-los dos reais.
Figure AI acaba de revelar uma nova demonstração, integrando-se a um modelo de visão e linguagem da OpenAI para permitir que ele se engaje em conversas naturais, interprete visualmente seu entorno e execute tarefas de forma autônoma.
Detalhes Inovadores:
Demonstração Versátil: O robô Figure 01 é mostrado falando conversacionalmente, organizando pratos e realizando ações dependentes de contexto.
Ações Autônomas: Todas as ações do robô são comportamentos aprendidos, em vez de controlados remotamente, e são executadas em velocidade normal.
Capacidade de Planejamento e Reflexão: Figure 01 também demonstra sua habilidade de planejar e refletir, explicando seu raciocínio para uma certa ação enquanto lembra do contexto passado.
Avanço Significativo:
Esta demonstração, que ocorre apenas 13 dias após o início da parceria entre a Figure e a OpenAI, anunciada junto à rodada de financiamento de $675M da startup, sinaliza um avanço impressionante. Se este é o progresso em tão pouco tempo, podemos esperar desenvolvimentos ainda mais surpreendentes no futuro. Figure 01 não apenas exibe destreza e movimento de última geração, mas agora combinados com as capacidades avançadas de uma IA multimodal poderosa.
Assista à demonstração acima — e imagine o que a integração com o GPT-5 trará...
Google DeepMind acaba de apresentar SIMA, um agente de inteligência artificial capaz de seguir instruções em linguagem natural para executar tarefas em ambientes de jogos eletrônicos diversos.
Detalhes do Avanço:
Treinamento Versátil: SIMA foi treinado em 9 jogos diferentes, incluindo títulos como No Man's Sky e Teardown, para aprender habilidades gerais e comandos.
Interação Intuitiva: O agente de IA não precisa de acesso ao código do jogo ou APIs, utilizando apenas imagens e instruções textuais como entrada — imitando a maneira como os humanos jogam.
Avaliação Abrangente: SIMA foi avaliado em cerca de 1.500 tarefas em categorias como navegação, interação com objetos e coleta de recursos.
Por que Isso Importa:
SIMA oferece uma visão empolgante do futuro dos jogos, onde agentes de IA podem se tornar companheiros dinâmicos, ao invés de apenas adversários poderosos. Além disso, aproxima-nos de uma IA capaz de colaborar inteligentemente com humanos não apenas em jogos, mas também em tarefas e ambientes do mundo real
RADAR EXPRESS
Midjourney bloqueia imagens de Biden e Trump à medida que as eleições se aproximam.
A Anthropic acaba de lançar uma biblioteca de prompts para o Claude 3.
A Amazon permitirá que os vendedores colem um link para que a IA possa criar uma página de produto
Firefly da Adobe, repete alguns dos mesmos erros controversos que o Gemini do Google cometeu em representações raciais e étnicas imprecisas
Create a wide, detailed image of a rocket launch, representing the public unveiling of OpenAI's Sora. The rocket, positioned prominently in the foreground, should have the OpenAI logo clearly visible on its body. The scene should capture the rocket just as it's taking off, with intense flames and smoke at the base, against a background of a clear blue sky, symbolizing the beginning of a groundbreaking journey into AI-powered content creation. The image should convey a sense of power, innovation, and the dawn of a new technological era, drawing the viewer into the monumental moment of the launch.
Dall-e 3 ✧ SPARK