Os juízes consideraram válidas as reivindicações da GEMA, ordenando à OpenAI que cessasse a reprodução e fornecesse indemnizações e divulgação.
O tribunal disse que o GPT-4 e o GPT-4o “memorizavam” letras, o que equivale a reprodução segundo as regras de direitos autorais da UE.
A decisão, ainda não final, pode estabelecer um importante precedente europeu sobre dados de treinamento de IA.
Hub de Arte, Moda e Entretenimento da Decrypt.
Descubra SCENE
A organização nacional de direitos musicais da Alemanha conquistou uma vitória parcial, mas decisiva, contra a OpenAI, após um tribunal de Munique decidir que os modelos subjacentes do ChatGPT reproduziram ilegalmente letras de músicas alemãs protegidas por direitos autorais.
A decisão ordena à OpenAI que cesse a reprodução, divulgue detalhes relevantes sobre o treinamento e compense os detentores de direitos. Ainda não é definitiva, e a OpenAI pode recorrer.
Se mantida, a decisão pode reformular a forma como as empresas de IA obtêm e licenciariam material criativo na Europa, enquanto os reguladores ponderam obrigações mais amplas para a transparência dos modelos e a procedência dos dados de treinamento.
O caso marca a primeira vez que um tribunal europeu concluiu que um grande modelo de linguagem violou direitos autorais ao memorizar obras protegidas.
Na sua decisão, a 42ª Câmara Civil do Tribunal Regional de Munique I disse que o GPT-4 e o GPT-4o continham letras “reproduzíveis” de nove canções bem conhecidas, incluindo “Atemlos” de Kristina Bach e “Wie schön, dass du geboren bist.”
O tribunal considerou que tal memorização constitui uma “fixação” das obras originais nos parâmetros do modelo, satisfazendo a definição legal de reprodução sob o Artigo 2 da Diretiva InfoSoc da UE e da Lei de Direitos Autorais da Alemanha.
“Pelo menos em casos individuais, quando solicitado adequadamente, o modelo produz uma saída cujo conteúdo é pelo menos parcialmente idêntico ao conteúdo do conjunto de dados de treinamento anterior,” uma cópia traduzida do julgamento escrito fornecida pelo tribunal de Munique ao Decrypt lê-se.
O modelo “gera uma sequência de tokens que parece estatisticamente plausível porque, por exemplo, estava contida no processo de treinamento de uma forma particularmente estável ou frequentemente recorrente,” escreveu o tribunal, acrescentando que, como esta “sequência de tokens apareceu em um grande número de sites acessíveis ao público”, isso significava que foi "incluída no conjunto de dados de treinamento mais de uma vez.
Nos processos, a GEMA argumentou que as letras de saída do modelo eram quase literais quando solicitadas, provando que os sistemas da OpenAI tinham retido e reproduzido as obras.
A OpenAI contrapôs que os seus modelos não armazenam dados de treino diretamente e que quaisquer resultados de saída resultam de solicitações dos utilizadores, não de cópias deliberadas.
A empresa também invocou exceções de mineração de texto e dados, que permitem reproduções temporárias para uso analítico.
“Discordamos da decisão e estamos considerando os próximos passos,” disse um porta-voz da OpenAI ao Decrypt. “A decisão refere-se a um conjunto limitado de letras e não impacta os milhões de pessoas, empresas e desenvolvedores na Alemanha que usam nossa tecnologia todos os dias.”
A OpenAI afirma que sistemas como os deles não armazenam nem contêm dados de treinamento e, portanto, não possuem cópias de letras ou outros textos. Em vez disso, esses modelos aprendem padrões e geram novas saídas com base em padrões, disse a OpenAI.
A empresa disse ao Decrypt que tratar um modelo como se contivesse obras armazenadas reflete um mal-entendido sobre como a tecnologia funciona.
O tribunal rejeitou essas defesas, decidindo que reproduções completas incorporadas na estrutura de um modelo estão fora do âmbito das isenções de mineração de dados.
“Treinar os modelos não deve ser considerado uma forma usual e esperada de uso que o detentor dos direitos deve antecipar,” escreveu o tribunal. “Isso se aplica ainda mais quando—como no caso presente—as obras são reproduzidas no modelo, algo que até os próprios réus consideram indesejável e contra o qual são tomadas contramedidas.”
Decrypt entrou em contacto separadamente com a GEMA para comentário, mas ainda não recebeu resposta até ao momento da publicação.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O uso de letras de músicas pelo ChatGPT viola o copyright, encontra o tribunal de Munique.
Em resumo
Hub de Arte, Moda e Entretenimento da Decrypt.
Descubra SCENE
A organização nacional de direitos musicais da Alemanha conquistou uma vitória parcial, mas decisiva, contra a OpenAI, após um tribunal de Munique decidir que os modelos subjacentes do ChatGPT reproduziram ilegalmente letras de músicas alemãs protegidas por direitos autorais.
A decisão ordena à OpenAI que cesse a reprodução, divulgue detalhes relevantes sobre o treinamento e compense os detentores de direitos. Ainda não é definitiva, e a OpenAI pode recorrer.
Se mantida, a decisão pode reformular a forma como as empresas de IA obtêm e licenciariam material criativo na Europa, enquanto os reguladores ponderam obrigações mais amplas para a transparência dos modelos e a procedência dos dados de treinamento.
O caso marca a primeira vez que um tribunal europeu concluiu que um grande modelo de linguagem violou direitos autorais ao memorizar obras protegidas.
Na sua decisão, a 42ª Câmara Civil do Tribunal Regional de Munique I disse que o GPT-4 e o GPT-4o continham letras “reproduzíveis” de nove canções bem conhecidas, incluindo “Atemlos” de Kristina Bach e “Wie schön, dass du geboren bist.”
O tribunal considerou que tal memorização constitui uma “fixação” das obras originais nos parâmetros do modelo, satisfazendo a definição legal de reprodução sob o Artigo 2 da Diretiva InfoSoc da UE e da Lei de Direitos Autorais da Alemanha.
“Pelo menos em casos individuais, quando solicitado adequadamente, o modelo produz uma saída cujo conteúdo é pelo menos parcialmente idêntico ao conteúdo do conjunto de dados de treinamento anterior,” uma cópia traduzida do julgamento escrito fornecida pelo tribunal de Munique ao Decrypt lê-se.
O modelo “gera uma sequência de tokens que parece estatisticamente plausível porque, por exemplo, estava contida no processo de treinamento de uma forma particularmente estável ou frequentemente recorrente,” escreveu o tribunal, acrescentando que, como esta “sequência de tokens apareceu em um grande número de sites acessíveis ao público”, isso significava que foi "incluída no conjunto de dados de treinamento mais de uma vez.
Nos processos, a GEMA argumentou que as letras de saída do modelo eram quase literais quando solicitadas, provando que os sistemas da OpenAI tinham retido e reproduzido as obras.
A OpenAI contrapôs que os seus modelos não armazenam dados de treino diretamente e que quaisquer resultados de saída resultam de solicitações dos utilizadores, não de cópias deliberadas.
A empresa também invocou exceções de mineração de texto e dados, que permitem reproduções temporárias para uso analítico.
“Discordamos da decisão e estamos considerando os próximos passos,” disse um porta-voz da OpenAI ao Decrypt. “A decisão refere-se a um conjunto limitado de letras e não impacta os milhões de pessoas, empresas e desenvolvedores na Alemanha que usam nossa tecnologia todos os dias.”
A OpenAI afirma que sistemas como os deles não armazenam nem contêm dados de treinamento e, portanto, não possuem cópias de letras ou outros textos. Em vez disso, esses modelos aprendem padrões e geram novas saídas com base em padrões, disse a OpenAI.
A empresa disse ao Decrypt que tratar um modelo como se contivesse obras armazenadas reflete um mal-entendido sobre como a tecnologia funciona.
O tribunal rejeitou essas defesas, decidindo que reproduções completas incorporadas na estrutura de um modelo estão fora do âmbito das isenções de mineração de dados.
“Treinar os modelos não deve ser considerado uma forma usual e esperada de uso que o detentor dos direitos deve antecipar,” escreveu o tribunal. “Isso se aplica ainda mais quando—como no caso presente—as obras são reproduzidas no modelo, algo que até os próprios réus consideram indesejável e contra o qual são tomadas contramedidas.”
Decrypt entrou em contacto separadamente com a GEMA para comentário, mas ainda não recebeu resposta até ao momento da publicação.