O treinamento dos modelos da inteligência artificial e o colonialismo de dados.

André Sarli é Doutor em Sociologia pela Universidade de Genebra e foi pesquisador no projeto "The Participatory Capability of Children in Street Situations in Brazil and Thailand" (A Capacidade Participativa de Crianças e Adolescentes em Situação de Rua no Brasil e na Tailândia), onde investigou os processos de exclusão digital enfrentados por crianças marginalizadas no Brasil. Em 2024, fundou a Garoa Re:AI, uma iniciativa dedicada a dar visibilidade às populações do Sul Global nos debates sobre tecnologia e inteligência artificial, com foco em suas dimensões éticas, sociais e de acessibilidade.

Por André Cardozo Sarli

No dia 21 de outubro de 2024, a plataforma de microtextos X (antigo Twitter) do bilionário Elon Musk modificou os seus termos de serviço e uso para possibilitar que todo o conteúdo que os seus usuários postam seja usado para treinamento de plataformas de Inteligência Artificial (IA). Em julho de 2024, a big tech META tomou medidas semelhantes no Facebook e Instagram. No Brasil, inclusive, a Autoridade Nacional de Proteção de Dados solicitou a suspensão da operação em virtude da falta de transparência. As plataformas Google e Linkedin também tomaram atitudes semelhantes, e a plataforma de fóruns Reddit firmou parcerias com empresas de IA para vender os seus dados, e os posts públicos de seus usuários.

Essa movimentação por parte das grandes companhias de tecnologia faz parte da estratégia de negócios do mercado da IA generativa, cujo fim é aperfeiçoar os modelos fundacionais que estruturam essa tecnologia. Baseada em modelos de linguagem de grande escala (LLM) e redes neurais, as IA de hoje, que tanto surpreendem os usuários com a sua capacidade de criação de conteúdo como texto, imagem, sons, vídeos e até códigos de programação, precisam de uma quantidade imensa de dados (e de energia e recursos naturais também) para executar as suas tarefas. A fim de buscar aumentar os seus bancos de dados e especialmente buscar informações não-sintéticas, as big tech estão indo atrás do conteúdo produzido por usuários de redes sociais.

O problema é a forma como essas companhias estão procedendo, de um lado com o “opt-in” automático, através de termos de serviços obscuros ou cuja localização é dificultada, e de outro lado com um discurso tecnosolucionista que normaliza a coleta desenfreada de dados – os fins justificam os meios. Essa temática traz à baila dois conceitos da sociologia digital que nos permitem colocar o fenômeno sob uma perspectiva crítica dessas medidas.

Os pesquisadores Couldry e Mejias, no livro “Data colonialism: Rethinking big data’s relation to the contemporary subject” (2018) cunharam o termo “colonialismo de dados”, que em sua definição combina as “práticas extrativas predatórias” com a “abstração dos métodos de computação contemporâneos”, por meio dos quais os governos, corporações e outras entidades reivindicam a propriedade e privatizam os dados produzidos pelos usuários e cidadãos. Um exemplo desse pensamento, dizem os autores, vem do próprio Fórum Econômico Mundial, que em 2011 declarou que os dados pessoais seriam o novo petróleo (Schwab et al, 2011). Para uma leitura crítica do pensamento de Couldry e Mejias, é bom estabelecer que eles escreveram o artigo antes do advento da IA generativa para o público – que foi em 2022 com as plataformas Midjourney e ChatGPT. Porém, adianto e defendo que a ideia de colonialismo de dados faz ainda mais sentido para o treinamento de IA do que as redes sociais, em virtude da natureza e forma de trabalho dos dados.

Baseada em uma perspectiva do sul-global, Couldry e Mejias (2018) afirmam que estamos diante de uma forma de “apropriação”. As plataformas digitais, argumentam os autores “produzem” o social para o capital, este social sendo uma “sociabilidade computada” como dizem Alaimo e Kallinikos (2017), e transformada em dados prontos para apropriação e exploração. Essa perspectiva sobre os dados se assemelharia ao que aconteceu com os povos originários do novo mundo e a noção de que o território onde vivem é terra nulius ou terra de ninguém, coloquialmente falando, o que serviu de legitimação para a sua “conquista”. Os dados seriam públicos, de ninguém.

Repara-se que Couldry e Mejías estruturavam o seu argumento na comodificação do social, que passou a ser mediado pelas plataformas digitais. Para essa comodificação, os dados precisam ser trabalhados e vinculados a outros dados como likes, relacionamentos, geoposicionamento, histórico de visitas e pesquisas, região, entre outros. A meu ver, porém, no processo de treinamento de LLMs, os dados primários não trabalhados já tem grande valor comercial por causa da pujança tecnológica que permite à IA fazer inferências válidas mesmo sem ou com pouca supervisão. A sociabilidade é bem-vinda, mas não necessária. Assim, o processo de extrativismo ficou mais claro. Isso nos traz ao que Bender et al (2021), em conhecida crítica sobre as plataformas de inteligência artificial, dizem que os LLMs foram treinados em “dados do tamanho da internet”, dados esses que foram “scraped” ou no português “raspados” sem muita preocupação de propriedade e privacidade.

Essa forma de treinamento ficou evidente com diversas descobertas, como por exemplo o exercício dos pesquisadores Nasr et al (2023) que com apenas duzentos dólares conseguiram extrair uma quantidade considerável de dados primários do ChatGPT. Alguns dos dados encontrados foram e-mails particulares e telefones, como visto da figura abaixo:

  [caption id="attachment_6783" align="alignnone" width="298"] Figura 1 - Pesquisadores conseguiram acesso a dados primários do chatgpt, como por exemplo e-mails e telefones. Fonte: Nasr et al (2023)[/caption]

É importante ressaltar que até aqui, estamos discutindo uma forma de colonização de dados cujos sujeitos detentores dos dados são majoritariamente indivíduos ou grupos consumidores. Porém, como uma manifestação da ostensividade e intensidade das estratégias de extração de dados, as companhias de tecnologia por trás de modelos LLM também coletam – e replicam – conteúdo protegido por propriedade intelectual. Essa nova faceta traz um desafio ao conceito de colonialismo digital, especialmente quando olhamos quem são os produtores de conteúdo. Temos o caso de artistas profissionais que publicam em plataformas como deviantart ou produzem para seus próprios sites, como a ilustradora Sarah Andersen, e neste cenário a apropriação se torna visível em virtude das relações de poder. Sarah se juntou a outros ilustradores e artistas e levou as plataformas como Stable Diffusion e Midjourney [1] à justiça. Porém, o conteúdo de grandes propriedades intelectuais da indústria de entretenimento, como a Disney e a Warner, também é facilmente replicado. Neste cenário diferente, a relação é horizontal – e devemos levar em conta que muitos dos investidores das duas indústrias são os mesmos – e devem acabar em acordos. Esses acordos devem influenciar também as relações com os consumidores comuns.

Essas relações diferentes trazem desafio ao termo colonização ao mesmo tempo que ressaltam os seus fundamentos: como essa extração de dados para treinamento de dados

alcançou níveis tão acentuados que conteúdos inteiros, como filmes, foram facilmente copiados e integrados ao treinamento dos LLM sem muito alarde. Porém, a provável rejeição e litigância de indústrias mais poderosas como o entretenimento e a imprensa podem ser também identificadas como razões que levam as big techs a buscar dados de treinamento nas redes sociais, onde os usuários têm menos consciência desses processos de extração.

Esse conceito de colonização, a meu ver, tem bastante relação com que o sociólogo digital David Beer escreveu em seu artigo sobre o “poder dos algoritmos” (2019). Beer afirma que o poder dos algoritmos reside não somente no que eles podem fazer, como classificação e replicação de conteúdo, como também no discurso que envolve o desenvolvimento e implantação dessas tecnologias. Ele utiliza o termo de “regimes de verdade” Foucaultiano (1980) para ilustrar como a noção de inteligência artificial faz parte de um vocabulário relativo à racionalidade baseada “nas virtudes do cálculo, competição, eficiência, objetividade e na necessidade de ser estratégico.” (Beer, 2019, tradução livre).

Nesse sentido, afirmo que o opt-in “fantasma” das grandes plataformas digitais utiliza esse discurso de racionalidade, mas adiciono também um certo discurso de “cool AI” ou “IA divertida” – a noção de que o treinamento dos dados é necessário para que as tecnologias nos auxiliem a criar conteúdo interessante, criativo e resolva grandes problemas. A IA é aqui pintada como se fosse algo quase mágico e que abriria portas das nossas dimensões criativas, a pagar um pequeno preço com os nossos dados pessoais. Dou como exemplo a página da META dedicada ao assunto, que diz que a sua IA “ajuda as pessoas a resolverem problemas complexos, serem mais imaginativos e criar algo nunca antes criado” (tradução livre). Depois, a “página diz que a IA generativa auxilia pessoas a criarem conteúdo de formas novas e empolgantes” (tradução livre).

Ressalto que esses discursos, e a utilização de dados pessoais per se não um problema. A IA pode e especialmente deve ser utilizada para avançar o nosso conhecimento sobre o mundo, resolver problemas e potencializar as capacidades humanas benéficas. No modelo capitalista de hoje, as empresas são o arranjo mais poderoso para consecução desses objetivos. O problema reside na forma opaca como a extração de dados é utilizada e como ao fim a IA generativa pode acentuar a desigualdade econômica justamente por beneficiar uma pequena elite de empresários em se utilizando de dados públicos.

As noções de colonialismo digital e do discurso racional-divertido da IA são importantes para pensar as formas como essa apropriação de dados é feita, como ela é legitimada, e quem ela beneficia. Assim como o colonialismo europeu do passado era também envolto a um discurso civilizador mas que privilegiava uma elite nos países ricos, a noção nos faz pensar também como o treinamento dos dados da IA com dados como os nossos posts em redes sociais

Por fim, convido o leitor a continuar a ler sobre o assunto de colonialismo digital através do ponto de vista de práticas decoloniais, recentemente publicado nesse blog (Andrade Mendonça, 2024).  Também apresento uma perspectiva ainda mais crítica aqueles que possam se interessar sobre o discurso das Inteligências artificiais, o que é um convite a pensar: a pesquisadora Gebru e o pesquisador Torres identificam que a IA, e especialmente a busca pela poderosa IA geral é fundamentada por diversos discursos como transhumanismo, extropianismo (a crença que as tecnologias vão nos fazer evoluir, como por exemplo aumentar a expectativa de vida), e pensamento com foco acentuado a longo prazo.

Notas 

[1] Stable Diffusion e Midjourney são plataformas de IA generativa cujo função é a geração de imagens através de prompts de texto.

Referências

Alaimo, C., & Kallinikos, J. (2017). Computing the everyday: Social media as data platforms. The Information Society33(4), 175–191. https://doi.org/10.1080/01972243.2017.1318327

Andrade Mendonça, H (2024, 17 de Outubro). Sobre o colonialismo digital e as pedagogias decoloniais. Understanding Artificial Intelligence. Universidade de São Paulo. Disponível em: https://understandingai.iea.usp.br/nota-critica/sobre-o-colonialismo-digital-e-as-pedagogias-decoloniais/

Beer, D. (2019). The social power of algorithms. In.: The Social Power of Algorithms. London: Routledge.

Couldry, N., & Mejias, U. A. (2019). Data colonialism: Rethinking big data’s relation to the contemporary subjectTelevision & New Media20(4), pp. 336-349.

Foucault , Michel . 1980 . Power/Knowledge: Selected Interviews & Other Writings, 1972–1977, New York: Pantheon Books.

Gebru, T., & Torres, É. P. (2024). The TESCREAL bundle: Eugenics and the promise of utopia through artificial general intelligence. First Monday.

Nasr, M., Carlini, N., Hayase, J., Jagielski, M., Cooper, A. F., Ippolito, D., ... & Lee, K. (2023). Scalable extraction of training data from (production) language modelsarXiv preprint arXiv:2311.17035.

Schwab, K., Marcus, A., Oyola, J. O., Hoffman, W., & Luzi, M. (2011, May). Personal data: The emergence of a new asset class. In.:  An Initiative of the World Economic Forum (pp. 1-40). Cologny, Switzerland: World Economic Forum.