De onde vêm os dados para treinar modelos de Inteligência Artificial?

Juliane Helanski

Sociedade & Cultura

30 minutos

 O mundo digital e os milhões de dispositivos conectados fizeram com que a quantidade de dados disponíveis se tornasse gigante. Dados são informações coletadas que podem ser usadas para análise, tomada de decisões ou para entender melhor uma situação. Eles podem vir de várias fontes, como pesquisas, sensores, registros digitais, transações comerciais e redes sociais. Nós usamos, geramos e analisamos dados todos os dias. Sempre que usamos o celular, buscamos algo na Internet, escutamos música, fazemos compras com cartão de crédito, postamos nas redes sociais ou usamos o GPS para traçar um caminho, estamos gerando dados. Para a Ciência de Dados, os dados são uma coleção de “fatos”. Esta coleção pode incluir números, imagens, vídeos, palavras, medidas e observações. Uma análise desses dados consiste, assim, na coleta, transformação e organização para inferir conclusões, fazer previsões e conduzir a tomada de decisão. Os dados mudam com o tempo, por isso a análise pode revelar novas informações ao longo de todo o seu ciclo de vida.

Por definição e objetivos diferentes, um banco de dados é a estrutura usada para armazenar e gerenciar grandes volumes de dados. Já um conjunto de dados, também conhecido como dataset, é uma parte específica e organizada retirada do banco de dados para um propósito analítico ou de modelagem específicos. Desta maneira, o tamanho dos dados de treinamento de um conjunto de dados é a quantidade necessária para treinar um modelo de Inteligência Artificial (IA). Por exemplo, se o modelo deve aprender a identificar pássaros, cada foto de pássaro usada no treinamento conta como um dado. Se você usar 100 fotos, o tamanho dos dados é 100. Esse número é importante porque, quanto maior o conjunto de dados, melhor o modelo aprende e consegue reconhecer detalhes mais sutis. Assim, um conjunto maior ajuda o modelo a identificar com mais precisão.

Os dados funcionam como um tipo de matéria-prima para a IA, permitindo que os algoritmos, em particular os de Aprendizado de Máquina (Machine Learning) aprendam, reconheçam padrões, tomem decisões e façam previsões. Sem dados relevantes e de qualidade, a IA pode enfrentar vários problemas, como os chamados “vieses” e “ruídos” nos dados de treinamento. Esses problemas surgem quando os dados repetem padrões que são encontrados no comportamento social. É importante lembrar que os dados, especialmente os que não são sintéticos (ou seja, gerados pela própria máquina, e ainda assim, em alguma medida, humanos), vêm das relações sociais. Essas relações podem refletir, reforçar e reproduzir estereótipos ou preconceitos porque simplificam os padrões de comportamento social e, ao mesmo tempo, ampliam os problemas existentes nesse comportamento. Por isso, há uma distinção, não oposta, entre os vieses humanos e os da máquina [1]. Além disso, os dados podem ser irrelevantes, incorretos, inconsistentes ou aleatórios, o que atrapalha o aprendizado do modelo de IA, diminuindo sua precisão e eficiência no cumprimento do objetivo para o qual foi projetada. Por isso que, logicamente, quanto mais variados e precisos os dados que o algoritmo recebe, mais capaz ele se torna. Apesar das controvérsias em torno da discussão especialista sobre o quanto a quantidade de dados, e até mesmo de potência da infraestrutura computacional, realmente influencia no desempenho da IA.

 Sistemas como DeepSeek, modelo computacional de linguagem desenvolvido na China, apresenta capacidades gerais superiores ao Llama 2 em áreas como raciocínio, codificação, matemática e compreensão do chinês – conforme apresentado no artigo “DeepSeek-v2: A strong, economical, and efficient mixture-of-experts language model” (2024). O primeiro DeepSeek possui 67 bilhões de parâmetros e foi treinado do zero com base em um conjunto de dados de 2 trilhões de tokens em inglês e chinês. Já o Deep Seek-v2 tem 236 bilhões de parâmetros e foi treinado com um corpus de 8,1 T tokens, atingindo um desempenho maior do que o DeepSeek e economizando cerca de 42,5% dos custos de treinamento [2]. Segundo o artigo, “Language Models are Few-Shot Learners” (2020), [3] o GPT-3 tem 175 bilhões de parâmetros e foi treinado com quase 1 trilhão de palavras do Common Crawl. Essa organização coleta conteúdo da internet e oferece seus arquivos em conjuntos de dados públicos e gratuitos. Todavia, para usá-los, é preciso ter infraestrutura computacional para baixar e processar os dados, que ficam armazenados em serviços como o Amazon Web Services. O GPT-3 adicionou aos conjuntos de dados do Common Crawl, um corpora com múltiplos conjuntos de dados linguísticos de referência, incluindo uma versão ampla do conjunto de texto da internet (WebText), que reúne livros e texto da Wikipédia em inglês. De acordo com o artigo, os dados do Common Crawl foram baixados em 41 fragmentos, abrangendo o período de 2016 a 2019. Antes da filtragem, totalizavam 45 terabytes de texto simples compactado, e após a filtragem ficaram em 570 gigabytes, cerca de 400 bilhões de tokens.

É bom lembrar que o desempenho de um modelo é avaliado por diversos fatores, como sua capacidade de atuar em várias tarefas, a habilidade de entender e gerar linguagem humana de forma clara e coerente, a capacidade de raciocinar e acessar conhecimento, além da eficiência e escalabilidade, incluindo tamanho, velocidade e custo. Também conta a avaliação de quão inteligente o modelo parece para as pessoas. A comparação entre o DeepSeek e o GPT-3 destaca como o tamanho do conjunto de dados e o poder computacional influenciam o treinamento de um modelo de IA. Também mostra a diferença no desempenho entre os dois, o que está questionando o paradigma atual de que é preciso usar a maior quantidade possível de dados e infraestrutura para desenvolver os melhores modelos de IA.

Artigos como esses mostram como modelos como o DeepSeek e o GPT-3 são treinados e seu desempenho, mas não informam a origem dos dados nem a modalidade, como texto, áudio ou vídeo. Também não informa se os dados têm licenças ou restrições, nem a localização geográfica, idioma ou se são de domínio público ou privado. Nesse contexto, um bom exemplo sobre a origem dos dados é apresentado no artigoBridging the Data Provenance Gap Across Text, Speech and Video” (2024) [4]. O estudo realiza uma auditoria longitudinal que abrange dados de texto, fala e vídeo, com o objetivo de investigar a origem, o uso e a distribuição geográfica e linguística dos dados. A auditoria incluiu o número de conjuntos de dados, seu tamanho em tokens ou horas, fontes, domínios, organizações criadoras, países, línguas e licenças. Foram examinados 3.916 conjuntos de dados de 659 organizações em 67 países, totalizando 2,1 trilhões de tokens e 1,9 milhão de horas. A pesquisa foca em características de origem dos dados de texto, fala e vídeo, e não em características isoladas, como conteúdo de ódio, dos conjuntos de dados.

Um dos principais achados da análise é que os dados multimodais estão sendo obtidos cada vez mais através da internet, das redes sociais ou gerados de forma sintética, em vez de fontes mais cuidadas, como filmes, audiolivros ou coleta manual. Essas fontes incluem a maior parte dos tokens de texto, além de horas de áudio e vídeo disponíveis publicamente. Apesar das plataformas de mídia social oferecerem grande volume de dados, diversidade e atualidade, elas também enfrentam problemas comuns ligados à anti-raspagem, direitos autorais, privacidade e veracidade das informações. Apenas 25% dos conjuntos de dados de texto, fala e vídeo têm licenças não comerciais. No entanto, mais de 80% do conteúdo em cada categoria apresenta restrições que não estão documentadas nas fontes dos conjuntos de dados. Mais de 55% do conteúdo tem licenças que não estão de acordo com as restrições das suas fontes. Dessa forma, a auditoria oferece ferramentas para que os desenvolvedores possam identificar as limitações dos conjuntos de dados. Outro ponto identificado foi que a representação geográfica e linguística não melhorou no ecossistema de dados na última década. Embora a quantidade de dados e idiomas sub-representados cresça a cada ano, chegando a mais de 600 idiomas e 60 países em 2024, a distribuição ainda continua concentrada principalmente no ocidente. Enquanto organizações da África e da América do Sul respondem por menos de 0,2% de conteúdo nas modalidades, as organizações da América do Norte e da Europa alcançam 93% dos tokens de texto e mais de 60% das horas de fala e vídeo.

As capacidades e falhas dos modelos multimodais são diretamente atribuídas aos seus dados de treinamento, o que justifica a importância da medição dos dados e também constata uma ausência de documentação, transparência e compreensão dos dados, especialmente para modalidades que não sejam textos. Outro ponto importante desse tipo de análise envolve identificar problemas relacionados à privacidade, remoção de conteúdo prejudicial, vieses relacionados ao gênero e à cor de pele, desafios ligados a direitos autorais, entre outros. Entender a origem dos dados pode ajudar a reduzir o viés e a toxicidade do modelo, melhorar a representação, evitar contaminação e aumentar a qualidade dos dados.

Estudos como esse já chamavam a atenção para a importância de analisar a origem dos dados antes mesmo da popularização dos modelos de linguagem computacional multimodais, como discutido no artigo “Datasheets for datasets” de 2021. O trabalho argumenta que a comunidade de Aprendizado de Máquina não tem um padrão para documentar conjuntos de dados, o que poderia causar problemas graves em áreas de alto risco. Como solução, propõe-se que cada conjunto de dados tenha uma planilha explicando sua motivação, composição, processo de coleta, usos recomendados, entre outros detalhes. Essa prática facilitaria a comunicação entre quem cria e quem usa os dados, além de incentivar a comunidade a valorizar mais a transparência e a responsabilidade [5]. Percebe-se que esses problemas foram identificados antes mesmo dos pesquisadores das humanidades e a opinião pública em geral começarem a identificá-los, especialmente com a chegada de modelos como o Chat-GPT. Outros trabalhos desse período, principalmente na área da informação e divulgados pelo AI Now Institute, também faziam um apelo por contribuições para gerar narrativas, posicionalidade e compreensões alternativas às formas mais conhecidas e amplamente divulgadas de falar sobre IA [6].

Entre meados de 2020 e 2021, temas como discriminação algorítmica e formas de combatê-la estavam dando origem a um novo campo de pesquisa interdisciplinar. Esse campo começava a se desenvolver com a suposição de que o que significa discriminação algorítmica é a mesma coisa em todo o mundo. Com o intuito de diversificar as visões sobre a discriminação algorítmica, a Conference on Fairness, Accountability, and Transparency organizada pela Association for Computing Machinery, por exemplo, tem apresentado estudos que analisam como as críticas à justiça algorítmica mudam fora do Norte Global. Aliás, a edição deste ano, que acontecerá de 23 a 26 de junho em Atenas, Grécia, vai tratar da adoção crescente de sistemas algorítmicos em vários contextos impulsionados por big data. Esses sistemas, como já foi amplamente notado, têm a capacidade de filtrar, classificar, pontuar, recomendar, personalizar e moldar a experiência humana. E cada vez mais, tomam ou influenciam decisões que afetam o acesso à serviços fundamentais como crédito, seguros, saúde, previdência social e imigração. Apesar dos benefícios que podem oferecer, eles também apresentam riscos significativos. Entre eles estão a codificação e ampliação de vieses, a redução da responsabilização e a dificuldade de garantir o devido processo legal. Como consequência, isso aumenta a diferença de informação entre as pessoas que fornecem dados para esses sistemas. Os desafios, entretanto, não se restringem a soluções tecnológicas para corrigir possíveis vieses, mas envolvem também a questão de decidir se as decisões devem ser terceirizadas para sistemas de computação baseados em dados e códigos.

Para avaliar soluções técnicas aos problemas sociais propagados por sistemas de IA, é necessário analisar seus benefícios e riscos. Isso inclui questões como estruturas de incentivos econômicos, distribuição de poder e redistribuição do bem-estar. Por isso é importante fundamentar as pesquisas em princípios de justiça, responsabilidade e transparência, considerando os requisitos legais existentes. Além disso, é fundamental propor investigações etnográficas sobre práticas de coleta de dados em diferentes contextos e países, especialmente no Sul Global, para identificar as falhas relacionadas a casos como o compartilhamento de dados.

Desde 2020, a comunidade da Ciência da Computação discute justiça, viés e responsabilização. No entanto, os próprios cientistas da computação reconhecem que muitos trabalhos técnicos tratam características sociais problemáticas como se fossem fixas e não conseguem abordar questões mais profundas de injustiça e desigualdade. Como é o caso do artigo “Roles for computing in social change” (2020). Apesar disso, acreditam que a pesquisa em computação pode ter importância na abordagem de problemas sociais. Segundo eles, a pesquisa em computação pode ajudar a diagnosticar esses problemas, permitindo uma compreensão e mensuração mais clara e precisa. Também pode mudar a forma como esses problemas são explicados e as respostas possíveis para eles. Também pode revelar os limites do que é possível alcançar por meio de métodos técnicos e o que não é. Por fim, o artigo argumenta que esses são caminhos que podem fortalecer o papel da computação à serviço da sociedade, sem, no entanto, exagerar na capacidade da tecnologia por si só para resolver problemas [7]. Aqui temos um exemplo de como as ciências sociais e humanas podem se unir à Ciência da Computação para identificar os limites e as potencialidades de cada uma ao reconhecer e oferecer soluções para os problemas sociais, considerando suas desigualdades específicas e como isso afeta cidadãos mais vulneráveis e menos familiarizados com a tecnologia.

Essas questões retomam um debate seminal na filosofia da ciência, liderado por Isabelle Stengers e Ilya Prigogine (1984), sobre a importância de integrar as atividades científicas à sociedade e atender às necessidades e demandas coletivas. Para isso, as ciências exatas precisam sair dos laboratórios ou a sociedade precisa entrar neles. Aos poucos, podemos aprender a resistir ao fascínio de buscar uma verdade geral sobre a natureza e a sociedade. Surge assim para as ciências o desafio de dialogar com saberes que já existem sobre situações conhecidas por cada pessoa. Assim como nas ciências sociais, as ciências exatas não podem mais ignorar o contexto social e histórico, que é fundamental para construir modelos teóricos de situações concretas [8].

O artigo recém-publicado “Navigating the Double Divide: Generative AI and the Dynamics of Inequality in Latin America “(2025) examina empiricamente duas hipóteses sobre o impacto da IA Generativa nas desigualdades na América Latina. A primeira hipótese é que a IA aumenta as desigualdades existentes, pois beneficia mais as regiões com melhor acesso à tecnologia e habilidades prévias. A segunda hipótese é que a IA pode diminuir a desigualdade ao democratizar o acesso a recursos educacionais, ferramentas criativas e gerar novas oportunidades econômicas. O artigo utiliza dados do Google Trends sobre buscas relacionadas à Inteligência Artificial entre janeiro de 2022 e janeiro de 2024 e uma aplicação de proxy para identificar o engajamento com IA em diferentes regiões da América Latina. Os resultados revelaram uma “dupla visão” no engajamento com a IA, mostrando grandes diferenças entre os países da América Latina. O interesse, nesses países, está concentrado principalmente em áreas urbanas e mais ricas. Comparada a países fora da América Latina, a região está atrás na busca por ferramentas especializadas em IA; o que indica um cenário complexo e desigual na adoção da IA, e apesar da crescente conscientização sobre sua importância, ainda existem lacunas no uso de aplicações avançadas [9].

É relevante observar que as “aplicações avançadas” vão além das tarefas básicas, como as feitas pelos modelos gratuitos. Elas incluem capacidades mais complexas de aprendizado, raciocínio, percepção e interação, permitindo realizar tarefas específicas e de grande impacto em setores estratégicos da economia de um país. Essas capacidades estão diretamente ligadas aos dados, especialmente no contexto do big data, que oferece a escala, variabilidade e velocidade necessárias para treinar modelos de IA. Isso permite que os modelos aprendam a extrair valor de grandes volumes de dados, alcançando um potencial capaz de gerar mudanças significativas. Nesse contexto, destaca-se a importância da soberania dos dados de um país em relação ao processamento e armazenamento, que é o local físico onde os dados ficam guardados. Muitas vezes, esses dados são transferidos globalmente, beneficiando empresas estrangeiras e suas respectivas economias. Por exemplo, se uma empresa armazena dados no Brasil, eles estão sujeitos à legislação brasileira, como a Lei Geral de Proteção de Dados (LGPD) [10]. Além disso, a soberania digital é igualmente importante para criar provedores nacionais que não dependam de servidores estrangeiros. Dessa forma, o país evita ficar vulnerável a interesses econômicos externos e pode criar modelos treinados com dados próprios. Esses modelos são monitorados com mais transparência e eficiência, beneficiando principalmente as regiões e grupos vulneráveis e historicamente desfavorecidos. Trata-se de um projeto muito mais amplo e complexo que pode ser um aliado na promoção e engajamento em torno da alfabetização e do letramento digital em termos de infraestrutura tecnológica. Uma análise aprofundada do tema pode ser encontrada no livro “Digital Sovereignty in BRICS Countries: How the Global South and Emerging Power Alliances are Reshaping Digital Governance” (2025) [11].

Os avanços de modelos de IA envolvem, desse modo, um processo contínuo e sistemático de captura e registro do conhecimento humano, que está sendo automatizado na prática. Como consequência, a produção de conhecimento sobre temas humanísticos está sendo rapidamente incorporada pelas mesmas ciências que criaram os sistemas de Inteligência Artificial, que agora conseguem desempenhar, de forma minimamente satisfatória e de alguma maneira, o trabalho dos pesquisadores dessas áreas. Até os próprios pesquisadores das humanidades estão usando esses sistemas para ajudar no seu trabalho, o que tem causado novos problemas, como a automação da cognição humana afeta a produção do conhecimento científico, em particular, a relação entre o aumento do número de publicações acadêmicas e a real relevância dessas pesquisas, que podem estar focando mais em cumprir métricas de quantidade do que em qualidade. Esses modelos computacionais, principalmente os gratuitos e usados sem uma estratégia clara, são muito eficazes para explicar padrões encontrados no conjunto de dados analisados – o que pode indicar a padronização de temas e escopos de pesquisas nas publicações recentes em diversas áreas. Mas, quando se trata de algo novo que ainda não foi classificado ou previsto, eles têm pouca capacidade.

Tudo isso acontece ao mesmo tempo em que criamos e usamos uma quantidade enorme de dados, o que gera um paradoxo interessante. Enquanto isso, o gerenciamento do big data é altamente centralizado, com processos de armazenamento e uso pouco transparentes e confiáveis. Mesmo assim, eles são usados como base para explicar a realidade, e as ciências, instituições e governos tendem a confiar cada vez mais neles. Parece que, quanto mais dados temos, e apesar dos problemas como vieses humanos e das máquinas, a confiança neles cresce junto com a desconfiança.

Notas

 

[1] Esses problemas foram discutidos, por exemplo, por Matteo Pasquinelli e Vladan Joler. Para saber mais, consulte a tradução brasileira feita pela Rede Latino-Americana de Estudos sobre Vigilância, Tecnologia e Sociedade (Lavits): Matteo Pasquinelli e Vladan Joler, “O manifesto Nooscópio: Inteligência Artificial como Instrumento de Extrativismo do Conhecimento”, traduzido por Leandro Módolo e Thais Pimentel, KIM research group (Universidade de Artes e Design de Karlsruhe) e Share Lab (Novi Sad), 1 de maio de 2020. Fonte: https://nooscope.ai. Disponível em: <https://lavits.org/o-manifesto-nooscopio-inteligencia-artificial-como-instrumento-de-extrativismo-do-conhecimento/>. Acesso em 27 de maio de 2025.

[2] O artigo foi apresentado por Aixin Liu et al., “DeepSeek-v2: A strong, economical, and efficient mixture-of-experts language model” em, 2024 e está disponível em: <https://arxiv.org/abs/2405.04434> Acesso em 28 de maio de 2025.

[3] O artigo em questão é de Tom Brown et al., “Language Models are Few-Shot Learners” e foi publicado por Tom Brown e colaboradores em 2020, na conferência Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020. Disponível em: <https://researchr.org/publication/nips-2020> . Acesso em 28 de maio de 2025.

[4] A pesquisa de Shayne Longpre et al., “Bridging the data provenance gap across text, speech and video” foi publicada em 2024 no Data Provenance Initiative, um coletivo voluntário de pesquisadores de IA que realiza auditorias em larga escala dos enormes conjuntos de dados que alimentam modelos de IA de última geração. Disponível em: <https://www.dataprovenance.org/about>. Acesso em 28 de maio de 2025.

[5] O artigo é de Timnit Gebru et. al., “Datasheets for datasets”, foi publicado em 2021 na revista online Communication of the ACM para as áreas de computação e tecnologia da informação. Disponível em: <https://arxiv.org/abs/1803.09010>. Acesso em 27 de maio de 2025.

[6] Em janeiro de 2021, o AI Now Institute publicou uma coletânea intitulada “A New AI Lexicon”, que reúne 42 trabalhos com o objetivo de ampliar as narrativas sobre a inteligência artificial. Disponível em: <https://ainowinstitute.org/collection/a-new-ai-lexicon>. Acesso em 29 de maio de 2025.

[7] O trabalho foi publicado por Rediet Abebe et al, “Roles for computing in social change”, na Conferência Proceedings of the 2020 conference on fairness, accountability, and transparency. Disponível em: <https://arxiv.org/abs/1912.04883>. Acesso em 27 de maio de 2025.

[8] Isabelle Stengers é graduada em química e doutora em filosofia. Ela escreveu sobre o tema no livro “A nova aliança: metamorfose da ciência”, junto com Ilya Prigogine, ganhador do Prêmio Nobel de Química em 1977. O livro foi publicado pela primeira vez em 1984.

[9] O artigo é de Hugo Neri, pesquisador do Center for Artificial Intelligence (C4AI/USP/FAPESP) e Veridiana Domingos, organizadora da plataforma de divulgação científica “Understanding Artificial Intelligence” (UIA/IEA/USP).

[10] Para mais detalhes da Lei, acesse: <https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm>. Acesso em 29 de maio de 2025.

[11] O livro foi escrito por Luca Belli e Jiang Min. Luca Belli abordou o tema recentemente na palestra organizada pelo Understanding Artificial Intelligence (UAI) em parceria com o Instituto de Estudos Avançados (IEA/USP) intitulada “Soberania digital em tempos de transição geopolítica: o caso dos BRICS”. Onde ele discutiu aspectos do conceito de soberania digital, que tem se tornado fundamental para entender as novas dinâmicas de poder dos Estados-nação diante da atual transição geopolítica. Também falou sobre as principais ações adotadas pelos governos dos cinco países do BRICS nesse contexto. O vídeo da palestra está disponível em: <https://youtu.be/-0GO5IGw41Q?si=_Y4LPXwoNICrncvf>. Acesso em 28 de maio de 2025.

Referências

ABEBE, Rediet et al. “Roles for computing in social change”. In: Proceedings of the 2020 conference on fairness, accountability, and transparency. 2020. p. 252-260. Disponível em: <https://dl.acm.org/doi/10.1145/3351095.3372871>. Acesso em 27 de maio de 2025.

BELLI, Luca e MIN, Jiang (eds.). Digital Sovereignty in the BRICS Countries: How the Global South and Emerging Power Alliances Are Reshaping Digital Governance, Communication, Society and Politics. Cambridge: Cambridge University Press, 2025.

BRASIL, Lei de nº 13.709, de 14 de agosto de 2018. Lei Geral Proteção de Dados Pessoais (LGPD). Brasília, DF, 2018. Disponível em: <https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm>. Acesso em 29 de maio de 2025.

BROWN, Tom et al. “Language models are few-shot learners”. Advances in neural information processing systems, v. 33, 2020, pp. 1877-1901. Disponível em: <https://arxiv.org/abs/2005.14165>. Acesso em 28 de maio de 2025.

GEBRU, Timnit et al. “Datasheets for datasets”. Communications of the ACM, v. 64, n. 12, p. 86-92, 2021. Disponível em: <https://dl.acm.org/doi/10.1145/3458723>. Acesso em 27 de maio de 2025.

LONGPRE, Shayne et al. “Bridging the data provenance gap across text, speech and video”. Data Provenance, 2024. Disponível em: <https://www.dataprovenance.org/publications>. Acesso em 28 de maio de 2025.

NERI, Hugo e CORDEIRO, Veridiana Domingos. “Navigating the Double Divide: Generative AI and the Dynamics of Inequality in Latin America”. In: PETER, Georg e KRAUSSE,  Reuss-Markus (Orgs.), Integrating Differences: Philosophical Aspects in Sociology and Vice Versa, ProtoSociology, v. 40, 2023, pp. 342-274. Disponível em: <http://www.protosociology.de>. Acesso em 28 de maio de 2025.

PASQUINELLI, Matteo e JOLER, Vladan. “O manifesto Nooscópio: Inteligência Artificial como Instrumento de Extrativismo do Conhecimento”, [Trad. Leandro Módolo & Thais Pimentel] KIM research group (Karlsruhe University of Arts and Design) e Share Lab (Novi Sad), 1 de Maio de 2020. Fonte: https://nooscope.ai. Disponível em: <https://lavits.org/o-manifesto-nooscopio-inteligencia-artificial-como-instrumento-de-extrativismo-do-conhecimento/> Acesso em 27 de maio de 2025.

PRIGOGINE, Ilya e STENGERS, Isabelle. A nova aliança: metamorfose da ciência. Brasília: Universidade de Brasília, 1991.

Compartilhe em suas redes