Nikolas Weber
⏸️ Google Interrompe Geração de Imagens com IA Após Polêmica
🎨 Stability AI Lança Stable Diffusion 3
🌐 Midjourney: Novidades e Futuro da Geração de Imagem por IA
O Google anunciou a pausa na capacidade do Gemini de gerar imagens de pessoas, após críticas intensas devido à supercorreção do modelo para diversidade em seus resultados.
Detalhes do Incidente:
Diversificação Excessiva: Tentativas do Gemini de diversificar suas saídas de imagem de pessoas tornaram-se virais no X, com usuários postando resultados imprecisos e enfrentando dificuldades para gerar personagens caucasianos.
Reconhecimento do Problema: O Google reconheceu os problemas com uma declaração, enfatizando a importância da diversidade, mas admitindo que "não atingiu o objetivo".
Discussão Mais Ampla: O incidente gerou uma discussão mais ampla sobre viés e segurança em modelos de IA.
Pausa e Melhorias Prometidas: O Google pausou as capacidades de geração de imagem de pessoas do Gemini por enquanto, prometendo "relançar uma versão aprimorada em breve".
Por Que Isso Importa:
A busca por um equilíbrio ético será uma tarefa muito difícil para as empresas de IA, e esta situação destaca por que muitos acreditam que modelos abertos e menos restritivos são imperativos. À medida que a IA cria mais conteúdo mundial, sua capacidade de moldar visões de mundo aumenta — colocando ainda mais importância em manter os modelos o mais imparciais e neutros possível.
A Stability AI acaba de revelar o Stable Diffusion 3, uma nova versão do seu gerador de imagens que promete melhorias significativas em qualidade, geração de múltiplos sujeitos e ortografia aprimorada nas imagens.
Detalhes do Lançamento:
Arquitetura Inovadora: O modelo é suportado por uma nova arquitetura de transformador, semelhante ao Sora da OpenAI, melhorando a qualidade e o desempenho.
Variedade de Tamanhos de Modelo: O lançamento incluirá vários tamanhos de modelo, variando de 800M a 8B parâmetros.
Tipografia Aprimorada: Permite geração de texto mais precisa e frases completas dentro das imagens.
Acesso Antecipado: O modelo atualizado está atualmente disponível em 'prévia antecipada' através de uma lista de espera.
Por Que Isso Importa:
Enquanto no passado havia uma grande lacuna entre modelos abertos e líderes de IA fechados, está se tornando claro que o código aberto pode competir com os melhores. Este upgrade continua a aceleração da imagem de IA — com habilidades textuais impressionantes que até mesmo Midjourney e OpenAI ainda não dominaram completamente.
Midjourney compartilhou atualizações importantes em seu evento Office Hours em 22 de fevereiro de 2024, prometendo avanços significativos e novas parcerias.
O Que Está Chegando:
Site em Evolução: Novas funcionalidades sociais estão sendo desenvolvidas para enriquecer a experiência dos usuários no site do Midjourney.
Aprimoramentos na v6:
Consistência de Personagens: Atendendo ao principal pedido dos usuários, com testes e ajustes em andamento.
Melhoria Estética: Um salto visual promissor.
Coerência Corporal: Uma possível nova funcionalidade.
Velocidade Aumentada: Tornando a v6 mais rápida e eficiente.
Novo "Describe": Lançamento em 1-2 semanas, com adição de referência de cor e modo turbo.
Vislumbres da v7:
Após a conclusão da v6, o foco se voltará para a v7, prometendo um sistema mais limpo e a possibilidade de adicionar vídeo.
Nos próximos 6 meses, possíveis parcerias com grandes laboratórios de IA e integração com modelos de linguagem.
Por Que Isso Importa:
As atualizações do Midjourney não apenas prometem enriquecer a criação de conteúdo visual com IA, mas também sinalizam uma expansão global e colaborações que podem definir o futuro da tecnologia de geração de imagem. A comunidade Midjourney pode esperar melhorias significativas na usabilidade, qualidade visual e velocidade, abrindo novos horizontes para criadores de conteúdo em todo o mundo.
RADAR EXPRESS
A venda anteriormente relatada de seus dados para treinamento de IA pelo Reddit teve seu comprador misterioso revelado, com o Google fechando o negócio por cerca de US$ 60 milhões por ano.
A OpenAI lançou novas atualizações para GPTs para criadores e usuários, incluindo opções de perfil expandidas e novas classificações e formulários de feedback para fornecer aos construtores.
O Google lançou sua ferramenta ‘Help Me Write’ no Chrome (desenvolvida pela Gemini), permitindo aos usuários gerar escrita ou revisões de IA com um único clique.
A Disney anunciou seu investimento em cinco startups como parte de seu programa Accelerator, com três delas – ElevenLabs, PrometheanAI e AudioShake – operando no setor de IA.
Studio photograph closeup of a chameleon over a black background.
Stable Diffusion 3