✨ Google Supera OpenAI na Corrida pelo Modo de Voz

✨ Google Supera OpenAI na Corrida pelo Modo de Voz

✨ Google Supera OpenAI na Corrida pelo Modo de Voz

Nikolas Weber

Aug 14, 2024

Aug 14, 2024

Summary

Summary

🎨 Processo de Artistas Contra Stability AI e Midjourney Ganha Força

🖼️ Grok-2 Traz Geração de Imagens por IA para o X

✨ Google Supera OpenAI na Corrida pelo Modo de Voz

Illustration by Cath Virginia / The Verge | Photos from Getty Images
Illustration by Cath Virginia / The Verge | Photos from Getty Images

O processo movido por vários artistas contra Stability AI, Midjourney e outras empresas relacionadas à IA pode prosseguir, com algumas alegações rejeitadas, segundo decisão de um juiz nesta segunda-feira.

Detalhes:

  • Alegações de Violação de Direitos Autorais: Muitos artistas afirmam que serviços populares de IA generativa violaram a lei de direitos autorais ao treinar seus modelos em conjuntos de dados que incluíam suas obras. Alguns usuários desses serviços poderiam até reproduzir diretamente cópias dessas obras.

  • Decisão Judicial: O juiz William Orrick, que já havia permitido uma queixa direta de violação de direitos autorais contra a Stability, agora aprovou uma nova alegação de indução de violação de direitos autorais contra a empresa. Ele também permitiu reclamações de violação de direitos autorais e marcas registradas contra a Midjourney e DeviantArt.

  • Alegações Contra Midjourney: Uma das acusações contra a Midjourney envolve a criação de uma "Lista de Estilos Midjourney", que incluía 4.700 artistas cujos nomes poderiam ser usados para gerar obras em seus estilos, o que os artistas alegam ser uma falsa endosse.

Radar Insights:

Essa decisão é um marco no debate sobre o uso de obras protegidas por direitos autorais para treinar sistemas de IA. O resultado do processo pode ter implicações significativas para a indústria de IA e a proteção dos direitos dos artistas, especialmente em um cenário onde grandes empresas de tecnologia estão fechando acordos milionários para acesso contínuo a dados, enquanto empresas menores, como Stability e Midjourney, enfrentam desafios legais e financeiros mais complexos.

A empresa de IA de Elon Musk, xAI, lançou os modelos Grok-2 e Grok-2 mini: dois novos chatbots que oferecem desempenho aprimorado e novas capacidades de geração de imagens. O gerador de imagens do Grok, baseado em prompts, é alimentado pelo modelo Flux 1 da Black Forest Lab e permite que os usuários gerem e publiquem imagens diretamente na plataforma X — com aparentemente poucas restrições para evitar abusos.

Detalhes:

  • Acesso Beta: O Grok-2 e o Grok-2 mini estão disponíveis em versão beta para assinantes Premium e Premium Plus do X, com previsão de lançamento na API empresarial da xAI ainda este mês.

  • Capacidades Avançadas: O Grok-2 é descrito como mais intuitivo, controlável e versátil do que seu antecessor, enquanto o Grok-2 mini oferece um equilíbrio entre velocidade e qualidade de respostas.

  • Exemplos Iniciais: Imagens geradas pelos novos modelos já apareceram online, mostrando figuras políticas como Donald Trump e Barack Obama em situações comprometedoras, sem qualquer tipo de aviso de que as imagens foram geradas por IA.

Radar Insights:

O lançamento do Grok-2 com capacidades de geração de imagens por IA levanta preocupações sobre o uso indevido da tecnologia, especialmente em um ambiente com poucas restrições. A ausência de avisos que identifiquem as imagens como geradas por IA pode agravar o problema de disseminação de desinformação, particularmente em contextos políticos sensíveis. Com a crescente facilidade de criar conteúdo visual falso, a responsabilidade das plataformas em regular e sinalizar essas criações se torna mais crítica do que nunca.

A Google acaba de lançar o Gemini Live, uma IA conversacional móvel com capacidades avançadas de voz, enquanto o modo de voz do ChatGPT da OpenAI ainda está em sua fase "alfa limitada" e não está disponível para todos.

Detalhes:

  • Gemini Live: A resposta da Google ao Modo de Voz Avançado da OpenAI, é capaz de conversas "aprofundadas" sem o uso das mãos e oferece 10 opções de voz humanizadas.

  • Interações Naturais: Os usuários podem interromper e fazer perguntas de acompanhamento durante as respostas, imitando o fluxo natural de uma conversa. A capacidade de ver e responder à visão da câmera do usuário está planejada para lançamento ainda este ano.

  • Integração Avançada: Similar às futuras funcionalidades de Inteligência da Apple, o Gemini se integra diretamente com o Google para fornecer respostas contextuais sem a necessidade de alternar entre aplicativos.

  • Disponibilidade: O Gemini Live agora é o assistente padrão no Google Pixel 9 e está disponível para todos os assinantes do Gemini Advanced no Android, com chegada ao iOS em breve.

Radar Insights:

O modo de voz em tempo real está gradualmente transformando a IA de uma ferramenta que usamos para enviar textos ou prompts para uma inteligência com a qual colaboramos, aprendemos, consultamos e crescemos. Com a expectativa global em torno dos produtos não lançados da OpenAI crescendo, a Google assumiu a dianteira, sendo a primeira a liderar o lançamento generalizado de assistentes de voz avançados de IA.

Gere vídeos de 5 ou 10 segundos, a partir de texto ou imagens, com 6 créditos gratuitos por dia.

Gere vídeos de 5 ou 10 segundos, a partir de texto ou imagens, com 6 créditos gratuitos por dia.

Discover More Tools There

Discover More Tools There

Discover More Tools There

Cover Prompt

Cover Prompt

Cover Prompt

A striking, hyper-realistic image of a woman, centrally positioned and symmetrical, holding a smartphone, looking directly at the screen with a bright, excited expression as she engages in a conversation with an AI

Midjourney

Thank you for reading!