Uma reflexão sobre direitos autorais e dados de treinamento de inteligência artificial gen A inteligência artificial generativa – “generative AI” em inglês – é um ramo da inteligência artificial que utiliza várias técnicas diferentes para ‘gerar’ novos conteúdos. Eis o porquê do adjetivo “generativa”
É comum, hoje em dia, usarmos a palavra “inteligente” para qualificar um dispositivo móvel capaz de se conectar à rede mundial de computadores. Smartphones que informam onde você está e como chegar ao seu destino, aspiradores de pó em forma de disco voador que deslizam de lá pra cá tirando o pó da sua sala de estar e os polêmicos carros autônomos, que prometem levá-lo ao trabalho sem o estresse de dirigir ou o risco de causar acidentes durante o caminho.1
Claro que somente a conexão à web não é suficiente para que um dispositivo seja considerado realmente inteligente. Tendo isto em conta, programadores de inteligência artificial fizeram-se a seguinte pergunta: será que uma máquina que lê livros pode aprender a escrever?
Pois bem, tal pergunta – que pode parecer absurda num primeiro momento – foi levada tão a sério pela indústria de inteligência artificial que escritores e artistas ingressaram com uma carta aberta e ações2 judiciais3 para pedir indenização e tratamento justo pelo uso de suas obras em treinamentos de inteligência artificial generativa4.
Várias empresas e detentores de direitos autorais ingressaram com ações judiciais coletivas por considerar que as práticas de treinamento de IA violam a lei dos direitos autorais. Eles argumentam que o uso de material protegido por direitos autorais para treinar modelos de IA não constitui uma “utilização justa” do seu conteúdo e, portanto, deve ser proibido.
Até o momento, não existem decisões judiciais significativas sobre o tema, que se encontra em um impasse devido à falta de normas específicas. Por um lado, se os tribunais concordarem com os demandantes, isso poderá comprometer o desenvolvimento futuro da tecnologia de IA. Por outro lado, se decidirem em desfavor dos demandantes, isso poderá ameaçar a fonte de renda de milhões de criadores de conteúdo que têm em sua criatividade e produção artística seu ofício.
Como se vê, estamos diante de uma lacuna legislativa e, por isso, utilizaremos este espaço para contribuir com reflexões e análises em torno da questão-chave:
O uso de livros, artigos, ensaios e poesia por modelos de treinamento de IA violam os direitos de autor?
Todos os subcampos da IA utilizam grandes conjuntos de dados no treinamento de seus modelos. Mas vamos focar especificamente no subcampo da IA generativa, que criar novos conteúdos a partir de outros já existentes.
Tal como a maioria dos software de aprendizagem automatizada, os sistemas de IA generativa funcionam identificando e reproduzindo padrões nos dados. Entre as criações que os modelos que a IA generativa podem gerar, estão:
Esses modelos são capazes de gerar código, texto, música e arte a partir de dados já existentes – criados por humanos e “retirados” da web – e que, em sua grande maioria, estão protegidos por direitos autorais.
No final da década de 2010, a maneira como se dava o treinamento de modelos de IA generativa não era um grande problema para os programadores de IA. Naquela época, os modelos mais avançados só eram capazes de gerar pequenas imagens desfocadas de rostos a preto e branco e, claro, isso não representava uma ameaça para os humanos criadores de conteúdo.
Já em 2022, no entanto, a situação mudou drasticamente. Um amador pode copiar o estilo de um artista em apenas algumas horas usando o software Stable Diffusion, e empresas começaram a vender impressões digitais geradas por IA generativa. Além disso, filtros de redes sociais tornaram-se imitações explícitas de trabalhos de designers vivos, o que fez com que questões de legalidade e ética se tornassem muito mais urgentes.
Uma vez esclarecido como ocorre o treinamento de modelos de IA generativa, vamos examinar quais fundamentos sustentam as inúmeras ações judiciais movidas por criadores de conteúdo humanos contra a indústria de IA.
O nexo causal que fundamenta as inúmeras ações judiciais movidas contra a indústria de IA se baseia na combinação de dois fatores:
Provavelmente, o resultado dessas ações judiciais nos tribunais americanos dependerá da aplicação da doutrina do “fair use” – que pode ser traduzida em português como doutrina do “uso justo” –, uma defesa importante para os criadores de modelos de IA5.
Essencialmente, a doutrina do “fair use” permite a violação de um direito de autor quando a ofensa do direito é feita em prol de um objetivo limitado e transformador. Para determinar se a defesa de “fair use” é aplicável, os tribunais americanos costumam ponderar quatro critérios:
Nos EUA, tanto a indústria de IA como os detentores de direitos autorais enfrentam incertezas em relação às suas perspectivas futuras. Os tribunais americanos ainda não analisaram a suposta violação de direitos autorais no treinamento de modelos de IA, e o parlamento ainda está considerando as possíveis soluções normativas.
Nesse cenário, é relevante observar como outros países têm buscado equilibrar a necessidade de inovação em IA com a proteção dos direitos autorais, e como isso influencia os parlamentares americanos.
A primeira lei abrangente do mundo sobre IA, o EU Artificial Intelligence Act, da União Europeia, exige que os criadores de modelos de fundação — utilizados como base para o desenvolvimento de modelos mais específicos e especializados em diversas aplicações — “divulguem publicamente um ‘resumo suficientemente detalhado’ do material protegido protegido por direitos autorais utilizado como dados de treinamento”.
A ampla transparência imposta pelo AI Act permite que criadores de conteúdo e detentores de direitos autorais saibam se seus conteúdos foram utilizados no treinamento de modelos, proporcionando-lhes maior controle e a possibilidade de exigir compensação pelo uso.
A abordagem da União Europeia, contudo, traz alguns problemas. Os modelos de IA são treinados em grandes conjuntos de dados, o que torna difícil quantificar a contribuição do trabalho de um único criador para um resultado e a correspondente compensação.
Nos EUA, uma iniciativa semelhante ao EU AI Act já é considerada por alguns parlamentares, como evidenciado pelo quadro bipartidário para a legislação sobre IA — desenvolvido pelos senadores Josh Hawley e Richard Blumenthal —, que propõe que “os criadores (de modelos de IA) sejam obrigados a divulgar a usuários e outras empresas informações essenciais sobre os dados de treino, as limitações, a precisão e a segurança dos modelos de IA”.
Em contraposição, o Japão6 e Israel7 adotaram uma abordagem favorável ao desenvolvimento da IA em detrimento dos direitos dos detentores de direitos autorais. Ambos permitem o uso dos materiais protegidos por direitos autorais, ainda que não autorizado, por empresas de machine learn.
O governo japonês, porém, diferencia o uso de materiais protegidos por direitos autorais e a geração de resultados a partir de seu uso. No país, a doutrina do uso justo é permitido para o treinamento de modelos de IA voltados para análise de informações ou aplicações de gravação de som e vídeo. Já em Israel, o Ministério da Justiça emitiu um recente parecer8 que amplia a doutrina do uso justo para abranger o treinamento de modelos de IA em geral.
Ambos os países, têm como meta acelerar a implementação e o ritmo da inovação em IA.
Para boa parte dos especialistas, as maiores — e mais complexas — questões relativas à IA e aos direitos autorais convergem para os dados utilizados para treinar os modelos.
Contudo, na visão de Daniel Gervais9, professor da Vanderbilt Law School, na Vanderbilt University (EUA) –, há dois fatores que são “muito, muito mais importantes”, diz ele.
Ora, considerando esses dois fatores, existem situações em que é permitido treinar um modelo de IA usando dados de outras pessoas. No entanto, o uso que se faz desse modelo pode resultar em uma violação. Mas como isso pode acontecer?
Se um modelo de IA é treinado com milhões de imagens e, em seguida, usado para gerar novas imagens, é muito improvável que isso constitua uma violação dos direitos autorais. Isso ocorre porque os dados de treinamento foram transformados durante o processo, e o resultado gerado não representa uma ameaça ao mercado das obras originais.
No entanto, se esse modelo utilizar em seu treinamento 100 imagens de um artista específico e gerar imagens que imitem seu estilo, é muito provável que isto constitua uma violação ao direito autoral.