DIREITOS AUTORAIS 11 min de leitura

Uma máquina que lê livros pode (mesmo) aprender a escrever? 

Uma reflexão sobre direitos autorais e dados de treinamento de inteligência artificial gen A inteligência artificial generativa – “generative AI” em inglês – é um ramo da inteligência artificial que utiliza várias técnicas diferentes para ‘gerar’ novos conteúdos. Eis o porquê do adjetivo “generativa”

Tatiana Revoredo
10 de novembro de 2024
Uma máquina que lê livros pode (mesmo) aprender a escrever? 
Este conteúdo pertence à editoria AI Showcase Ver mais conteúdos
Este conteúdo pertence à editoria Estratégia e inovação Ver mais conteúdos
Link copiado para a área de transferência!

É comum, hoje em dia, usarmos a palavra “inteligente” para qualificar um dispositivo móvel capaz de se conectar à rede mundial de computadores. Smartphones que informam onde você está e como chegar ao seu destino, aspiradores de pó em forma de disco voador que deslizam de lá pra cá tirando o pó da sua sala de estar e os polêmicos carros autônomos, que prometem levá-lo ao trabalho sem o estresse de dirigir ou o risco de causar acidentes durante o caminho.1 

Claro que somente a conexão à web não é suficiente para que um dispositivo seja considerado realmente inteligente. Tendo isto em conta, programadores de inteligência artificial fizeram-se a seguinte pergunta: será que uma máquina que lê livros pode aprender a escrever? 

Pois bem, tal pergunta – que pode parecer absurda num primeiro momento – foi levada tão a sério pela indústria de inteligência artificial que escritores e artistas ingressaram com uma carta aberta e ações2 judiciais3 para pedir indenização e tratamento justo pelo uso de suas obras em treinamentos de inteligência artificial generativa4.

Várias empresas e detentores de direitos autorais ingressaram com ações judiciais coletivas por considerar que as práticas de treinamento de IA violam a lei dos direitos autorais. Eles argumentam que o uso de material protegido por direitos autorais para treinar modelos de IA não constitui uma “utilização justa” do seu conteúdo e, portanto, deve ser proibido.

Até o momento, não existem decisões judiciais significativas sobre o tema, que se encontra em um impasse devido à falta de normas específicas. Por um lado, se os tribunais concordarem com os demandantes, isso poderá comprometer o desenvolvimento futuro da tecnologia de IA. Por outro lado, se decidirem em desfavor dos demandantes, isso poderá ameaçar a fonte de renda de milhões de criadores de conteúdo que têm em sua criatividade e produção artística seu ofício. 

Como se vê, estamos diante de uma lacuna legislativa e, por isso, utilizaremos este espaço para contribuir com reflexões e análises em torno da questão-chave: 

O uso de livros, artigos, ensaios e poesia por modelos de treinamento de IA violam os direitos de autor?

Como se dá o treinamento dos modelos de IA generativa

Todos os subcampos da IA utilizam grandes conjuntos de dados no treinamento de seus modelos. Mas vamos focar especificamente no subcampo da IA generativa, que criar novos conteúdos a partir de outros já existentes.

Tal como a maioria dos software de aprendizagem automatizada, os sistemas de IA generativa funcionam identificando e reproduzindo padrões nos dados. Entre as criações que os modelos que a IA generativa podem gerar, estão: 

  • Textos, como ocorre com o ChatGPT, que gera saída textual e realiza conversas com os usuários.
  • Fotografias de rostos humanos, objetos e cenas a partir de imagens “sementes’. 
  • Imagens a partir da tradução de textos, como faz o DALL-E, que é capaz de gerar fotografias realistas a partir de descrições textuais de objetos simples.
  • Outros tipos de criação de conteúdo, que inclui a fabricação de itens do zero, utilizando tecnologias como impressão 3D, CRISPR e outras.

Esses modelos são capazes de gerar código, texto, música e arte a partir de dados já existentes – criados por humanos e “retirados” da web – e que, em sua grande maioria, estão protegidos por direitos autorais.

No final da década de 2010, a maneira como se dava o treinamento de modelos de IA generativa não era um grande problema para os programadores de IA. Naquela época, os modelos mais avançados só eram capazes de gerar pequenas imagens desfocadas de rostos a preto e branco e, claro, isso não representava uma ameaça para os humanos criadores de conteúdo. 

Já em 2022, no entanto, a situação mudou drasticamente. Um amador pode copiar o estilo de um artista em apenas algumas horas usando o software Stable Diffusion, e empresas começaram a vender impressões digitais geradas por IA generativa. Além disso, filtros de redes sociais tornaram-se imitações explícitas de trabalhos de designers vivos, o que fez com que questões de legalidade e ética se tornassem muito mais urgentes.

Uma vez esclarecido como ocorre o treinamento de modelos de IA generativa, vamos examinar quais fundamentos sustentam as inúmeras ações judiciais movidas por criadores de conteúdo humanos contra a indústria de IA.

Nexo causal: a proteção garantida por lei e a violação de direitos autorais no treinamento de modelos de IA

O nexo causal que fundamenta as inúmeras ações judiciais movidas contra a indústria de IA se baseia na combinação de dois fatores:

  • Atualmente, modelos de IA generativa são capazes de reproduzir informações e fornecer  material a partir de conteúdos já existentes e legalmente protegidos;
  • Criadores de conteúdo e detentores de direitos autorais, que não autorizaram esse tipo de uso. 

Provavelmente, o resultado dessas ações judiciais nos tribunais americanos dependerá da aplicação da doutrina do “fair use” – que pode ser traduzida em português como doutrina do “uso justo” –, uma defesa importante para os criadores de modelos de IA5.

Essencialmente, a doutrina do “fair use” permite a violação de um direito de autor quando a ofensa do direito é feita em prol de um objetivo limitado e transformador. Para determinar se a defesa de “fair use” é aplicável, os tribunais americanos costumam ponderar quatro critérios:

  • O objetivo e o caráter da utilização, incluindo se se destina a fins comerciais ou educativos.
  • A natureza do trabalho protegido por direitos de autor.
  • A quantidade e a substancialidade da parte utilizada relativa ao trabalho protegido por direitos de autor.
  • O efeito da utilização no mercado potencial ou no valor do trabalho protegido por direitos de autor.

Abordagens legislativas e decisões internacionais 

Nos EUA, tanto a indústria de IA como os detentores de direitos autorais enfrentam incertezas em relação às suas perspectivas futuras. Os tribunais americanos ainda não analisaram a suposta violação de direitos autorais no treinamento de modelos de IA, e o parlamento ainda está considerando as possíveis soluções normativas.

Nesse cenário, é relevante observar como outros países têm buscado equilibrar a necessidade de inovação em IA com a proteção dos direitos autorais, e como isso influencia os parlamentares americanos. 

A primeira lei abrangente do mundo sobre IA, o EU Artificial Intelligence Act, da União Europeia, exige que os criadores de modelos de fundação — utilizados como base para o desenvolvimento de modelos mais específicos e especializados em diversas aplicações — “divulguem publicamente um ‘resumo suficientemente detalhado’ do material protegido protegido por direitos autorais utilizado como dados de treinamento”. 

A ampla transparência imposta pelo AI Act permite que criadores de conteúdo e detentores de direitos autorais saibam se seus conteúdos foram utilizados no treinamento de modelos, proporcionando-lhes maior controle e a possibilidade de exigir compensação pelo uso.

A abordagem da União Europeia, contudo, traz alguns problemas. Os modelos de IA são treinados em grandes conjuntos de dados, o que torna difícil quantificar a contribuição do trabalho de um único criador para um resultado e a correspondente compensação. 

Nos EUA, uma iniciativa semelhante ao EU AI Act já é considerada por alguns parlamentares, como evidenciado pelo quadro bipartidário para a legislação sobre IA — desenvolvido pelos senadores Josh Hawley e Richard Blumenthal —, que propõe que “os criadores (de modelos de IA) sejam obrigados a divulgar a usuários e outras empresas informações essenciais sobre os dados de treino, as limitações, a precisão e a segurança dos modelos de IA”. 

Em contraposição, o Japão6 e Israel7 adotaram uma abordagem favorável ao desenvolvimento da IA em detrimento dos direitos dos detentores de direitos autorais. Ambos permitem o uso dos materiais protegidos por direitos autorais, ainda que não autorizado, por empresas de machine learn. 

O governo japonês, porém, diferencia o uso de materiais protegidos por direitos autorais e a geração de resultados a partir de seu uso. No país, a doutrina do uso justo é permitido para o treinamento de modelos de IA voltados para análise de informações ou aplicações de gravação de som e vídeo. Já em Israel, o Ministério da Justiça emitiu um recente parecer8 que amplia a doutrina do uso justo para abranger o treinamento de modelos de IA em geral. 

Ambos os países, têm como meta acelerar a implementação e o ritmo da inovação em IA.

É possível estabelecer direitos autorais sobre o que um modelo de IA cria?

Para boa parte dos especialistas, as maiores — e mais complexas — questões relativas à IA e aos direitos autorais convergem para os dados utilizados para treinar os modelos. 

Contudo, na visão de Daniel Gervais9, professor da Vanderbilt Law School, na Vanderbilt University (EUA) –, há dois fatores que são “muito, muito mais importantes”, diz ele. 

  • Qual é o objetivo ou a natureza da utilização? 
  • Qual é o impacto no mercado?

Ora, considerando esses dois fatores, existem situações em que é permitido treinar um modelo de IA usando dados de outras pessoas. No entanto, o uso que se faz desse modelo pode resultar em uma violação. Mas como isso pode acontecer?

Se um modelo de IA é treinado com milhões de imagens e, em seguida, usado para gerar novas imagens, é muito improvável que isso constitua uma violação dos direitos autorais. Isso ocorre porque os dados de treinamento foram transformados durante o processo, e o resultado gerado não representa uma ameaça ao mercado das obras originais.

No entanto, se esse modelo utilizar em seu treinamento 100 imagens de um artista específico e gerar imagens que imitem seu estilo, é muito provável que isto constitua uma violação ao direito autoral.

  1.  KING, Stephen. 2023. In: Stephen King: My Books Were Used to Train AI. The Atlantic. Disponível em: https://www.theatlantic.com/books/archive/2023/08/stephen-king-books-ai-writing/675088/. Acesso em 20 dez 2023. ↩︎
  2. Um grupo de autores sediados nos EUA, incluindo o vencedor do Prémio Pulitzer Michael Chabon, processou a OpenAI no tribunal federal de São Francisco. Os autores acusaram a empresa de usar indevidamente seus textos para treinar o ChatGPT. A ação judicial, movida por Chabon, o dramaturgo David Henry Hwang e os escritores Matthew Klam, Rachel Louise Snyder e Ayelet Waldman, alega que a OpenAI copiou seus trabalhos sem autorização para ensinar o ChatGPT a responder solicitações de texto feitas por usuários. A ação judicial também sustenta que as obras dos autores, como livros, peças de teatro e artigos, desempenham um papel fundamental na formação do ChatGPT, uma vez que tais obras são os “melhores exemplos de escrita longa e de alta qualidade”. ↩︎
  3. SHARMA, Divyanshi. 2023. In: Award-winning authors take legal action against OpenAI, say company misused their work to train ChatGPT. Indian Today. Disponível em: https://www.indiatoday.in/technology/news/story/award-winning-authors-take-legal-action-against-openai-say-company-misused-their-work-to-train-chatgpt-2434513-2023-09-12/. Acesso em 8-jan-2024. ↩︎
  4.  A inteligência artificial generativa – “generative AI” em inglês – é um ramo da inteligência artificial que utiliza várias técnicas diferentes para ‘gerar’ novos conteúdos. Eis o porquê do adjetivo “Generativa”.  ↩︎
  5. LEVINE, Joshua; Belton, John. 2023. In: “Primer: Training AI Models with Copyrighted Work”. American Action Forum. Disponível em: https://www.americanactionforum.org/insight/primer-training-ai-models-with-copyrighted-work/. Acesso em 17 dez 2023. ↩︎
  6. Technomancers.ai. 2023. In: “Japan Goes All In: Copyright Doesn’t Apply To AI Training”. Disponível em: https://cacm.acm.org/news/273479-japan-goes-all-in-copyright-doesnt-apply-to-ai-training/fulltext/. Acesso em 17 dez. 2023. ↩︎
  7.  BAND, Jonathan. 2023. In: “Israel Ministry of Justice Issues Opinion Supporting the Use of Copyrighted Works for Machine Learning”. Disruptive Competition Project. Dispoinível em: https://www.project-disco.org/intellectual-property/011823-israel-ministry-of-justice-issues-opinion-supporting-the-use-of-copyrighted-works-for-machine-learning/.
    Acesso em: 17 dez. 2023. ↩︎
  8.  Disponível em: https://www.gov.il/BlobFolder/legalinfo/machine-learning/he/machine-learning.pdf/. Acesso em: 17 dez. 2023. ↩︎
  9. GERVAIS, Daniel J., AI Derivatives: the Application to the Derivative Work Right to Literary and Artistic Productions of AI Machines (February 8, 2022). Seton Hall Law Review, Vol. 53, 2022, Vanderbilt Law Research Paper No. 22-12, Disponível em SSRN: https://ssrn.com/abstract=4022665or http://dx.doi.org/10.2139/ssrn.4022665. Acesso em: 17 12 2023. ↩︎
Tatiana Revoredo
Tatiana Revoredo é especialista em aplicações de negócios blockchain e em estratégia de negócios em inteligência artificial pela MIT Sloan School of Management, em inteligência artificial pelo MIT CSAIL e em mitigação de riscos cibernéticos pela Harvard University. Estrategista de blockchain pela Saïd Business School, University of Oxford, ela é professora do curso “Blockchain para negócios“ no Insper e autora de três livros sobre esses temas.

Deixe um comentário

Você atualizou a sua lista de conteúdos favoritos. Ver conteúdos
aqui