📹 Sora: A Revolução da Geração de Vídeo por IA da OpenAI

📹 Sora: A Revolução da Geração de Vídeo por IA da OpenAI

📹 Sora: A Revolução da Geração de Vídeo por IA da OpenAI

Nikolas Weber

16 de fev. de 2024

16 de fev. de 2024

Resumo

Resumo

📹 Sora: A Revolução da Geração de Vídeo por IA da OpenAI

✨ Gemini 1.5: Janela de Contexto Revolucionária

🚀 OpenAI: O Novo Desafiante do Google Search?

A OpenAI acaba de surpreender o mundo ao lançar o Sora, um modelo de IA de texto para vídeo capaz de criar gerações de vídeo realistas e coesas de até um minuto, diretamente a partir de prompts de texto e imagens.

Detalhes do Sora

  • Sora integra aspectos do GPT e do DALL-E para compreender melhor a dinâmica física e manter detalhes através dos vídeos gerados, resultando em saídas realistas.


  • O modelo pode gerar vídeos de até 60 segundos, em Full HD, a partir de prompts de texto, imagens estáticas ou vídeos.


  • Atualmente, Sora está disponível para red-teamers e criadores selecionados, buscando feedback inicial antes de um possível lançamento mais amplo.


A OpenAI acaba de dar um salto gigantesco no vídeo com o Sora, aproximando-nos de saídas quase indistinguíveis da realidade. Sora promete desbloquear criatividade e, ao mesmo tempo, trazer novas capacidades preocupantes para atores mal-intencionados. Para o bem ou para o mal... o jogo de vídeo de IA acaba de mudar completamente.

A Google acaba de revelar o modelo Gemini 1.5, uma atualização do Gemini Ultra, que apresenta uma janela de contexto inovadora de 1 milhão de tokens, permitindo processar uma quantidade de dados muito superior aos sistemas de IA anteriores.

Detalhes do Gemini 1.5

  • O Gemini 1.5 Pro pode processar até 700.000 palavras de texto, 30.000 linhas de código, 11 horas de áudio ou 1 hora de vídeo, estabelecendo novos padrões de capacidade de processamento.


  • Apesar da ampla janela de contexto, o modelo mantém o desempenho, analisando detalhes granulares de grandes blocos de texto, código e vídeos.


  • Inicialmente, o 1.5 será lançado ao público com uma janela de contexto de 128K, com expansão prevista à medida que o modelo for aprimorado. A versão completa de 1M de tokens está disponível apenas para desenvolvedores aprovados e clientes empresariais.


Após o lançamento do Gemini Advanced, a Google acelera com outra atualização significativa. A janela de contexto massiva desbloqueia capacidades como analisar livros inteiros, filmes completos, grandes bases de código e mais, oferecendo ao Gemini um diferencial sério e uma nova vantagem nas guerras de Modelos de Linguagem de Grande Escala (LLM).

Fontes do The Information indicam que a OpenAI está desenvolvendo um mecanismo de busca na web (parcialmente alimentado pelo Bing) que competiria mais diretamente com o Google.

  • Ainda não está claro se será uma plataforma independente ou parte do ChatGPT.


  • Esse movimento vem um ano após o CEO da Microsoft (e apoiador da OpenAI) Satya Nadella desafiar o Google, integrando ferramentas de IA Copilot ao Bing e declarando no Decoder: “Quero que as pessoas saibam que os fizemos dançar.”


  • Entre o Bard/Gemini da Google, o Copilot e novatos como o Perplexity, a pista de dança da busca na web está ficando rapidamente lotada.

RADAR EXPRESS

A Nvidia ultrapassou a Alphabet em capitalização de mercado na quarta-feira, apenas um dia depois de ultrapassar a Amazon. A Bloomberg está relatando que as ações da fabricante de chips agora valem US$ 1,83 trilhão.

X está adicionando IA em sua guia Explorar, com tópicos de tendências definidos para obter mais contexto por meio de resumos gerados pelo Grok.

A Apple acaba de adquirir um novo domínio (iwork.ai) logo após abrir o código-fonte de um novo modelo de edição de imagens e lançar vários artigos de pesquisa focados em IA, gerando especulações sobre grandes planos de IA para seus aplicativos de produtividade.

O renomado pesquisador de IA e membro fundador da OpenAI, Andrej Karpathy, acaba de anunciar que está deixando a empresa pela segunda vez, postando no X que planeja seguir projetos pessoais.

Um modelo de código aberto que usa linguagem natural para editar imagens.

Um modelo de código aberto que usa linguagem natural para editar imagens.

Descobrir Mais Ferramentas Ai

Descobrir Mais Ferramentas

Descobrir Mais Ferramentas Ai

Prompt da Capa

Prompt da Capa

Prompt da Capa

Craft a hyper-realistic, wide horizontal image showcasing an individual's extreme surprise and excitement as they gaze at their smartphone screen. The subject is perfectly centered, embodying a moment of pure astonishment. Their eyes are wide open, eyebrows raised, and mouth agape in an expressive display of wonder. The scene's lighting accentuates the sharp details of the individual's facial features, the intricate textures of their clothing, and the shimmering screen of the smartphone, creating a stark contrast against a softly blurred background. This careful balance ensures a symmetrical and focused composition, emphasizing the hyper-realistic portrayal of the moment. The image captures the intense emotional response to whatever marvel the phone reveals, with every detail from the glow of the screen reflecting off their skin to the subtle nuances of their expression rendered with precision.

Dall-e 3 ✧ SPARK

Obrigado pela Leitura!