Entrevista com Felipe Sobreira Abrahão por Andrea Naccache

Felipe Sobreira Abrahão é pesquisador pós-doutorado na área de sistemas complexos e sua relação presente na biologia e inteligência artificial na UNICAMP. Atua também como pesquisador associado no Oxford Immune Algorithmics e no Laboratório Nacional de Computação Científica. Além disso, possui bacharelado em Matemática pela UFRJ. Com mestrado e doutorado no programa interdisciplinar de pós-graduação em História das Ciências e das Técnicas e Epistemologia, analisando a intersecção entre ciências exatas e da terra com o temática de Metabiologia, Subcomputação e Hipercomputação

Andréa Naccache é doutora em Filosofia do Direito pela Universidade de São Paulo (USP) e possui um MBA em Gestão de Investimentos pela Fundação Getúlio Vargas (FGV). Desde 2009, dirige o Núcleo de Criação, um grupo informal de pesquisa dedicado ao estudo da ética no processo criativo.

Essa entrevista foi realizada originalmente em português no dia 16 de agosto de 2024

Andréa Naccache: A seu ver, como a teoria da informação algorítmica pode contribuir para a regulamentação de IA?

Felipe Abrahão: Nas discussões sobre regulamentação parece que se tem privilegiado uma abordagem principiológica. Poderíamos pensar que a abordagem pela teoria da informação algorítmica (ou pela teoria da computação em geral) seria mesmo principiológica. Mas eu fiquei pensando que essas propostas, enfim, axiológicas, que se baseiam em princípios mínimos, deixam uma margem muito aberta. Entre o princípio e sua aplicação existe uma margem, um espaço de manobra muito grande que os maus atores podem aproveitar para tirar vantagem. A vantagem de uma abordagem axiológica, vamos usar esse termo, seria evitar uma “analysis paralysis“ e uma “regulamentação mosaico”, em que você tem que ter um julgamento diferente para cada evento. Isso vai se tornando intratável. Então eu acho que talvez a teoria da informação algorítmica não atue nessa dicotomia entre o principiológico e o caso a caso. Está na fronteira entre o empírico e o teórico, como uma abordagem redutora. Quando se tem o contexto, o âmbito, o escopo de aplicação, que é multifacetado, variado, com multivariáveis e diversos trade-offs, você precisa de um framework redutor. Um método ou um framework que faça a ponte entre o aplicável e os princípios axiológicos que você quer estabelecer. É esse o papel da teoria da informação algorítmica.

Andréa Naccache: Você fala em três níveis de viés algorítmico. Quais são eles? Em quais a teoria da informação algorítmica (TIA) pode ajudar?

Felipe Abrahão: O primeiro nível que mais se menciona é também o mais fácil de perceber e tratar. É o dos vieses nos dados — que podem nem sempre estar em como eles são coletados e no próprio método de coleta, em como são minerados e armazenados, apesar de também poder acontecer. Em geral, são vieses de tratamento das situações na sociedade que um banco de dados apenas captura, reflete e propaga.

Estudar vieses nesse primeiro nível é fácil porque métodos estatísticos dão conta. Consegue-se ver quando há distorções e um grupo está sendo favorecido ou desfavorecido. Essa parte é mais tratável não só porque existe um extenso corpo teórico de ciências sociais, ciências humanas, a respeito, como os próprios métodos estatísticos aplicados também têm um ferramental, tanto teórico quanto empírico, já bem estabelecido. Então, esse primeiro nível, de viés mais flagrante, é mais fácil de detectar e tratar.

O segundo nível é mais complicado. Para ele, a teoria da informação algorítmica hoje já de pronto oferece uma abordagem. Por quê? Esse segundo nível seria o de vieses que não estão na sociedade, não estão nos dados, não estão a priori dados para a máquina, a priori no sentido de existirem antes da máquina ter acesso. Eles são gerados no ato de programar, independentemente de serem intencionais ou não: nesse sentido, de maneira agnóstica. São vieses na própria estrutura algorítmica, que é diferente da estrutura estatística. Porque... Bom, o chavão para explicar isso é que correlação não é causação. Quando se está no âmbito estatístico, trata-se com correlações. E por mais que você queira, nunca consegue destrinchar totalmente os “confounders”, as variáveis implícitas ou adjacentes que causam confusão. Por mais que existam metas, e metas para cada caso ou contexto, qualquer aprimoramento possível sempre deixa falhas (uma forma em que se demonstra essa limitação é usando aleatoriedade algorítmica, que é um dos conceitos-chave da TIA, ver https://repositorio.usp.br/item/003074972). Já quando se passa do âmbito estatístico ao algorítmico entramos na área da causação. É o melhor que teorias matemáticas formais podem fazer, com uso de derivações lógicas, por exemplo, ou modus ponens. Mas isso é só um exemplo.

 Na verdade, vale qualquer estrutura matemática sobre a qual se possa provar teoremas e verificar as provas de maneira agnóstica passo-a-passo e de maneira totalmente reproduzível. (Para essas estruturas, vou usar o termo “determinista”, mas nem precisaria, porque estruturas não deterministas também são capturadas: estruturas matemáticas das quais as próprias dinâmicas podem ser explicáveis, ou formalizadas, ou predizíveis, ou traduzidas em axiomas, de modo que essa quantidade de axiomas seja finita. Então, eu acho que podemos falar de determinismo, mas somente de maneira superficial para simplificar. Isso pode levar a se falar de relações mecanicistas, mas note que isso é errado. Em termos simples, você pode usar “determinismo” para simplificar, mas o mais apropriado seria usar o conceito de computável)...

Então, nesse âmbito, pode-se falar em causação, e nele surgem vieses, seja da prática do desenvolvedor, do ato de programar ou, às vezes, da linguagem de programação. Há linguagens de programação que facilitam ou dificultam em certos aspectos. Essa é uma área sempre em evolução. As coisas estão sempre mudando. Cada hora aparece uma linguagem de programação que facilita o trabalho em certos aspectos e, só ao se facilitar, decorre uma tendência a causar vieses que podem trazer problemas. Não são intencionalmente feitos para causar problemas na sociedade, mas isso ocorre quando os sistemas são postos em prática. Assim nesse segundo nível algorítmico, que traz vieses causados pela subjetividade do ato do programador, intencionais ou não.

Agora, o terceiro nível, que eu diria estar na fronteira do que o pessoal que trabalha com ciência da informação e inteligência artificial está lidando, pois toca sistemas complexos: trata os problemas na sociedade. Os vieses aqui não estão na sociedade e não estão no algoritmo. Só emergem uma vez que os algoritmos são postos em prática na sociedade, uma vez que os outputs, os resultados ou os gráficos que esses algoritmos produzem para os analisadores são usados para como base para alguma política pública, por exemplo.

Andréa Naccache: Pode trazer um exemplo?

Felipe Abrahão: O exemplo clássico é o PredPol, usado na Califórnia (ver https://philpapers.org/rec/CAVBDA). Um experimento de predição de casos de crime usado para distribuir a força-tarefa da polícia. Se já existia um viés racista da polícia, ele não explicava totalmente o aumento de viés que ocorreu depois do algoritmo ser posto em prática. Um caso clássico de ciclo vicioso, que é característico de cenários complexos quando há ciclo causal entre algoritmo e sociedade. Um retroalimenta o outro.

Eu sempre gosto de indicar esses três níveis porque o segundo e o terceiro nível são grandes desafios de fronteira da ciência. É interessante e triste, porque são situações em que a fronteira da ciência, do nosso conhecimento, do que a gente tem de melhor, de ponta, traduz-se em problemas que não somente são efetivos na sociedade, mas que podem causar danos imensuráveis.