🎨 Stability AI Lança Stable Diffusion 3

🎨 Stability AI Lança Stable Diffusion 3

🎨 Stability AI Lança Stable Diffusion 3

Nikolas Weber

Feb 23, 2024

Feb 23, 2024

Summary

Summary

⏸️ Google Interrompe Geração de Imagens com IA Após Polêmica

🎨 Stability AI Lança Stable Diffusion 3

🌐 Midjourney: Novidades e Futuro da Geração de Imagem por IA

O Google anunciou a pausa na capacidade do Gemini de gerar imagens de pessoas, após críticas intensas devido à supercorreção do modelo para diversidade em seus resultados.

Detalhes do Incidente:

  • Diversificação Excessiva: Tentativas do Gemini de diversificar suas saídas de imagem de pessoas tornaram-se virais no X, com usuários postando resultados imprecisos e enfrentando dificuldades para gerar personagens caucasianos.

  • Reconhecimento do Problema: O Google reconheceu os problemas com uma declaração, enfatizando a importância da diversidade, mas admitindo que "não atingiu o objetivo".

  • Discussão Mais Ampla: O incidente gerou uma discussão mais ampla sobre viés e segurança em modelos de IA.

  • Pausa e Melhorias Prometidas: O Google pausou as capacidades de geração de imagem de pessoas do Gemini por enquanto, prometendo "relançar uma versão aprimorada em breve".

Por Que Isso Importa:

A busca por um equilíbrio ético será uma tarefa muito difícil para as empresas de IA, e esta situação destaca por que muitos acreditam que modelos abertos e menos restritivos são imperativos. À medida que a IA cria mais conteúdo mundial, sua capacidade de moldar visões de mundo aumenta — colocando ainda mais importância em manter os modelos o mais imparciais e neutros possível.

A Stability AI acaba de revelar o Stable Diffusion 3, uma nova versão do seu gerador de imagens que promete melhorias significativas em qualidade, geração de múltiplos sujeitos e ortografia aprimorada nas imagens.

Detalhes do Lançamento:

  • Arquitetura Inovadora: O modelo é suportado por uma nova arquitetura de transformador, semelhante ao Sora da OpenAI, melhorando a qualidade e o desempenho.

  • Variedade de Tamanhos de Modelo: O lançamento incluirá vários tamanhos de modelo, variando de 800M a 8B parâmetros.

  • Tipografia Aprimorada: Permite geração de texto mais precisa e frases completas dentro das imagens.

  • Acesso Antecipado: O modelo atualizado está atualmente disponível em 'prévia antecipada' através de uma lista de espera.

Por Que Isso Importa:

Enquanto no passado havia uma grande lacuna entre modelos abertos e líderes de IA fechados, está se tornando claro que o código aberto pode competir com os melhores. Este upgrade continua a aceleração da imagem de IA — com habilidades textuais impressionantes que até mesmo Midjourney e OpenAI ainda não dominaram completamente.

Midjourney compartilhou atualizações importantes em seu evento Office Hours em 22 de fevereiro de 2024, prometendo avanços significativos e novas parcerias.

O Que Está Chegando:

  • Site em Evolução: Novas funcionalidades sociais estão sendo desenvolvidas para enriquecer a experiência dos usuários no site do Midjourney.

Aprimoramentos na v6:

  • Consistência de Personagens: Atendendo ao principal pedido dos usuários, com testes e ajustes em andamento.

  • Melhoria Estética: Um salto visual promissor.

  • Coerência Corporal: Uma possível nova funcionalidade.

  • Velocidade Aumentada: Tornando a v6 mais rápida e eficiente.

  • Novo "Describe": Lançamento em 1-2 semanas, com adição de referência de cor e modo turbo.

Vislumbres da v7:

  • Após a conclusão da v6, o foco se voltará para a v7, prometendo um sistema mais limpo e a possibilidade de adicionar vídeo.

  • Nos próximos 6 meses, possíveis parcerias com grandes laboratórios de IA e integração com modelos de linguagem.

Por Que Isso Importa:

As atualizações do Midjourney não apenas prometem enriquecer a criação de conteúdo visual com IA, mas também sinalizam uma expansão global e colaborações que podem definir o futuro da tecnologia de geração de imagem. A comunidade Midjourney pode esperar melhorias significativas na usabilidade, qualidade visual e velocidade, abrindo novos horizontes para criadores de conteúdo em todo o mundo.

RADAR EXPRESS

A venda anteriormente relatada de seus dados para treinamento de IA pelo Reddit teve seu comprador misterioso revelado, com o Google fechando o negócio por cerca de US$ 60 milhões por ano.

A OpenAI lançou novas atualizações para GPTs para criadores e usuários, incluindo opções de perfil expandidas e novas classificações e formulários de feedback para fornecer aos construtores.

O Google lançou sua ferramenta ‘Help Me Write’ no Chrome (desenvolvida pela Gemini), permitindo aos usuários gerar escrita ou revisões de IA com um único clique.

A Disney anunciou seu investimento em cinco startups como parte de seu programa Accelerator, com três delas – ElevenLabs, PrometheanAI e AudioShake – operando no setor de IA.

NEX cria modelos de IA multimodais e controláveis para criação de conteúdo visual.

NEX cria modelos de IA multimodais e controláveis para criação de conteúdo visual.

Discover More Tools There

Discover More Tools There

Discover More Tools There

Cover Prompt

Cover Prompt

Cover Prompt

Studio photograph closeup of a chameleon over a black background.

Stable Diffusion 3

Thank you for reading!