🎨 Stability AI Lança Stable Diffusion 3

Nikolas Weber

23 de fev. de 2024

Resumo

⏸️ Google Interrompe Geração de Imagens com IA Após Polêmica

🎨 Stability AI Lança Stable Diffusion 3

🌐 Midjourney: Novidades e Futuro da Geração de Imagem por IA

⏸️ Google Interrompe Geração de Imagens com IA Após Polêmica

O Google anunciou a pausa na capacidade do Gemini de gerar imagens de pessoas, após críticas intensas devido à supercorreção do modelo para diversidade em seus resultados.

Detalhes do Incidente:

Diversificação Excessiva: Tentativas do Gemini de diversificar suas saídas de imagem de pessoas tornaram-se virais no X, com usuários postando resultados imprecisos e enfrentando dificuldades para gerar personagens caucasianos.
Reconhecimento do Problema: O Google reconheceu os problemas com uma declaração, enfatizando a importância da diversidade, mas admitindo que "não atingiu o objetivo".
Discussão Mais Ampla: O incidente gerou uma discussão mais ampla sobre viés e segurança em modelos de IA.
Pausa e Melhorias Prometidas: O Google pausou as capacidades de geração de imagem de pessoas do Gemini por enquanto, prometendo "relançar uma versão aprimorada em breve".

Por Que Isso Importa:

A busca por um equilíbrio ético será uma tarefa muito difícil para as empresas de IA, e esta situação destaca por que muitos acreditam que modelos abertos e menos restritivos são imperativos. À medida que a IA cria mais conteúdo mundial, sua capacidade de moldar visões de mundo aumenta — colocando ainda mais importância em manter os modelos o mais imparciais e neutros possível.

🎨 Stability AI Lança Stable Diffusion 3

A Stability AI acaba de revelar o Stable Diffusion 3, uma nova versão do seu gerador de imagens que promete melhorias significativas em qualidade, geração de múltiplos sujeitos e ortografia aprimorada nas imagens.

Detalhes do Lançamento:

Arquitetura Inovadora: O modelo é suportado por uma nova arquitetura de transformador, semelhante ao Sora da OpenAI, melhorando a qualidade e o desempenho.
Variedade de Tamanhos de Modelo: O lançamento incluirá vários tamanhos de modelo, variando de 800M a 8B parâmetros.
Tipografia Aprimorada: Permite geração de texto mais precisa e frases completas dentro das imagens.
Acesso Antecipado: O modelo atualizado está atualmente disponível em 'prévia antecipada' através de uma lista de espera.

Por Que Isso Importa:

Enquanto no passado havia uma grande lacuna entre modelos abertos e líderes de IA fechados, está se tornando claro que o código aberto pode competir com os melhores. Este upgrade continua a aceleração da imagem de IA — com habilidades textuais impressionantes que até mesmo Midjourney e OpenAI ainda não dominaram completamente.

🌐 Midjourney: Novidades e Futuro da Geração de Imagem por IA

Midjourney compartilhou atualizações importantes em seu evento Office Hours em 22 de fevereiro de 2024, prometendo avanços significativos e novas parcerias.

O Que Está Chegando:

Site em Evolução: Novas funcionalidades sociais estão sendo desenvolvidas para enriquecer a experiência dos usuários no site do Midjourney.

Aprimoramentos na v6:

Consistência de Personagens: Atendendo ao principal pedido dos usuários, com testes e ajustes em andamento.
Melhoria Estética: Um salto visual promissor.
Coerência Corporal: Uma possível nova funcionalidade.
Velocidade Aumentada: Tornando a v6 mais rápida e eficiente.
Novo "Describe": Lançamento em 1-2 semanas, com adição de referência de cor e modo turbo.

Vislumbres da v7:

Após a conclusão da v6, o foco se voltará para a v7, prometendo um sistema mais limpo e a possibilidade de adicionar vídeo.
Nos próximos 6 meses, possíveis parcerias com grandes laboratórios de IA e integração com modelos de linguagem.

Por Que Isso Importa:

As atualizações do Midjourney não apenas prometem enriquecer a criação de conteúdo visual com IA, mas também sinalizam uma expansão global e colaborações que podem definir o futuro da tecnologia de geração de imagem. A comunidade Midjourney pode esperar melhorias significativas na usabilidade, qualidade visual e velocidade, abrindo novos horizontes para criadores de conteúdo em todo o mundo.

RADAR EXPRESS

A venda anteriormente relatada de seus dados para treinamento de IA pelo Reddit teve seu comprador misterioso revelado, com o Google fechando o negócio por cerca de US$ 60 milhões por ano.

A OpenAI lançou novas atualizações para GPTs para criadores e usuários, incluindo opções de perfil expandidas e novas classificações e formulários de feedback para fornecer aos construtores.

O Google lançou sua ferramenta ‘Help Me Write’ no Chrome (desenvolvida pela Gemini), permitindo aos usuários gerar escrita ou revisões de IA com um único clique.

A Disney anunciou seu investimento em cinco startups como parte de seu programa Accelerator, com três delas – ElevenLabs, PrometheanAI e AudioShake – operando no setor de IA.