Entrevista com Profa. Sandra Avila, por Camila Pintarelli
Essa entrevista foi realizada originalmente em português no dia 3 de novembro de 2023
A Professora Sandra Ávila é Doutora pela Sorbonne Université e pela Universidade Federal de Minas Gerais (UFMG), e Professora do Instituto de Computação (IC) – Universidade de Campinas (UNICAMP), onde atualmente está como Chefe do Departamento de Ciências da Informação (DSI). Vem se destacando mundialmente na pesquisa de Inteligência Artificial, com enfoque em aprendizado de máquina, visão computacional, processamento digital de imagens e reconhecimento de padrões, estando dentre os 2% de pesquisadores mais citados no em todo o mundo. Suas pesquisas têm mostrado potencial revolucionário à saúde e à agricultura de precisão, destacando-se sua aplicação no diagnóstico de câncer de pele, especialmente em populações negras, o que lhe rendeu o Google Latin American Research Awards em 2018, 2019, 2020 e 2021, e o Google Award for Inclusion Research, em 2022.
A seguir, a Professora Sandra nos conta um pouco sobre sua trajetória profissional, os objetivos de sua pesquisa e sua visão sobre a IA.
Camila Pintarelli: Sua trajetória acadêmica e suas pesquisas estão desempenhando papel essencial na concretização da igualdade social, notadamente na área da saúde pública. Poderia compartilhar conosco um pouco sobre sua história profissional?
Sandra Ávila: Sou filha de pais que eram profissionais da ciência da computação na Universidade Federal de Sergipe, Estado onde nasci. A Universidade era o lugar onde eu sempre estava, andava e passava férias. Esse contexto fez com que eu fosse uma pessoa privilegiada, pois me deu a oportunidade de ter um computador em casa, mas naquela época eu ainda só enxergava o computador como uma ferramenta para brincar.
Sempre gostei muito da área de Ciências Exatas e só não escolhi cursar Matemática porque tinha a errada concepção de se tratar de uma carreira voltada ao magistério – o que não é e, curiosamente, hoje sou Professora! Então, fui para a área da Computação, porque vi na Computação enormes possibilidades para ajudar as pessoas. Entrei na graduação sem saber absolutamente nada, mas fui percebendo diversas coisas interessantes ao longo do curso, especialmente por eu ser mulher. Durante a graduação, gostei muito do processo: de se estabelecer uma pergunta de pesquisa, procurar uma resposta e encontra diversos caminhos, diversas formas para responder uma pergunta. Você tem a chance de descobrir caminhos diferentes, mudar e ter, de novo, de mudar o mesmo caminho: não é uma ciência fechada. No final da graduação, fiz uma disciplina de processamento digital de imagens e participei de um workshop sobre computação forense. Foi quando pensei: é isso que quero fazer, pois posso ajudar as pessoas com isso. Considerando esse meu interesse pela pesquisa, pela procura de respostas, e por ter visto como eu podia ajudar as pessoas com a computação, fui fazer Mestrado e lá, aprofundei os estudos em processamento digital de imagem – que hoje é chamado de aprendizado de máquina. Resolvi, depois, fazer Doutorado, aplicando o processamento digital de imagem para identificação de conteúdo sensível em vídeos (pornografia, p.ex.), para proteger crianças e adolescentes. Um pouco antes de iniciar o Pós-Doutorado, surgiu a ideia de aplicarmos a computação na área da saúde, com o que veio a ideia de trabalhar com o câncer de pele.
Camila Pintarelli: A linha mestra de todo seu trabalho de pesquisa é usar a computação para ajudar o ser humano?
Sandra Ávila: Sim e vejo na computação uma forma de ajudar muitas pessoas.
Camila Pintarelli: Você tem um papel determinante na construção do processamento digital de imagens no Brasil e no mundo. Como era esse segmento quando você começou e como ele é hoje?
Sandra Ávila: As técnicas de computação e algoritmos utilizados até hoje na área já foram inventados há muito tempo. Quando eu estava na graduação, entre 2002 e 2006, utilizávamos um algoritmo proposto em 1986. Então, a área não era nova. Mas muitas melhorias ocorreram, muitas alterações, e o ano de 2012 é bastante significativo. Em 2012, resultados de pesquisa de fato impressionantes foram liberados, o que gerou um movimento grande de investimentos em hardware e em outras frentes. Os últimos dez anos estão sendo revolucionários para a computação e tem muita coisa nova acontecendo. Cito, por exemplo, o processamento de linguagem natural, que surge a partir de 2017.
Camila Pintarelli: Voltando um pouco à parte de análise de dados sensíveis, na sua opinião, quais são os principais motivos tecnológicos que levam à chamada “discriminação algorítmica”? A senhora concorda com o uso dessa expressão?
Sandra Ávila: Entendo que é racismo de fato, racismo algorítmico. Como funciona o que a gente chama de aprendizado de máquina? O aprendizado de máquina vai “aprender” (e, aqui, com bastante aspas) padrões a partir dos dados que lhe são disponibilizados. Não vou dizer explicitamente, por exemplo, quais são os padrões que têm que ser aprendidos. O que eu falo para a máquina, quando estou programando os algoritmos, são as técnicas e o que cada coisa significa para análise, considerado o conjunto de dados que é disponibilizado.
Então, no conjunto de coisas analisadas, se digo que um padrão corresponde a uma lesão de pele maligna, a máquina aprende que é maligna; que outro padrão corresponde a abuso, a máquina aprende que é abuso. Mas não estou dizendo à máquina quais são as características que precisam ser utilizadas para resolver o problema; o que ocorre é a extração desses padrões a partir de técnica computacional e processamento digital de imagens. Assim, se o meu conjunto de dados não é representativo de determinados padrões, não tem como a máquina “aprendê-los”, porque não tem como extrair essa informação. Nos casos de racismo algorítmico, ou o conjunto de dados a ser analisado pela máquina já carrega o viés, ou o dado sequer existe, o que impede, portanto, que a máquina aprenda.
Camila Pintarelli: Como isso se reflete no diagnóstico oncológico e quais foram os desafios com os quais a senhora se deparou em suas premiadas pesquisas?
Sandra Ávila: Trabalho há muitos anos com a parte de câncer de pele e posso afirmar que, até hoje, não temos, de forma significativa, dados da população brasileira.
Para codificar corretamente o problema que a computação visa a resolver, é preciso entendê-lo: o padrão de lesão dermatológica de uma pessoa branca é diferente do padrão de lesão de uma pessoa negra. E se esse dado não é passado à máquina, aquela informação não será codificada em termos de algoritmos e, portanto, estaremos resolvendo o problema errado ou de forma errada. Veja o caso do reconhecimento facial. Se no conjunto de dados não há pessoas negras, esse desbalanceamento de dados repercute no uso da técnica algorítmica. Outro exemplo: aquele algoritmo da Amazon, que funcionou por muito pouco tempo, para recrutamento e seleção automática de currículos, para a área da tecnologia.
Na área de tecnologia, sabemos que, até hoje, há muito mais homens do que mulheres. Portanto, esse algoritmo, para realizar a contratação automática, foi treinado a partir dessa base de dados, que tinha muito mais currículos de homem do que de mulher. O que aconteceu, então, no processo automatizado de contratação? Quando o algoritmo foi extrair os padrões, ele só contratou homens, porque esse foi o dado passado a ele. Na prática, o algoritmo acabou reproduzindo esse viés histórico de profissionais que existe na área. E isso não quer dizer que o algoritmo errou: ele acertou, mas dentro do conjunto limitado e enviesado de dados que foi dado a ele. Então, para que os algoritmos “aprendam” nesses casos, precisamos balanceá-los, porque o conjunto de dados entregue a ele já está desbalanceado. Caso esse balanceamento não seja feito, o problema a ser resolvido não é resolvido e acaba se perpetuando de forma automática. Voltando ao câncer de pele, foi exatamente isso que constatamos: a base de dados não tinha determinadas lesões.
Camila Pintarelli: Foi essa a situação que senhora comentou em importante artigo no CASCAC Blog?
Sandra Ávila: Como disse, trabalho há muitos anos com câncer de pele e comecei nisso em 2013. Ao longo dos anos de 2014 e 2016, começamos a procurar dados, a conversar com dermatologistas, a participar de cursos de dermatoscopia e a conhecer os problemas, tudo para construir uma forma de identificação automática de lesões a partir do reconhecimento de padrões de imagem. Em 2016, surgiu uma competição e muitos dados foram disponibilizados, dados bem anotados, isto é, dados que passaram por diagnóstico, biópsia e outros exames. Dados confiáveis, mas que sempre temos que analisar de uma forma que não seja 100% confiável. Fomos, então, investigando técnicas para o algoritmo e testando-o em reuniões com dermatologistas. Mas havia uma informação que não estava contida na base de dados: a localização da lesão no corpo. Havia a lesão, mas não se sabia onde essa lesão estava no corpo – se está perto do olho, no braço etc. Questionamos, então, se esse dado poderia ser determinante para a identificação da natureza da lesão, ao que descobrimos que as lesões presentes na mão, no pé, na palma da mão, na palma do pé e na unha geralmente eram descartadas da base de dados. Naquela ocasião, a informação passada foi a de que tais lesões eram confusas e poderiam interferir no diagnóstico automatizado buscado. Em 2020, saíram duas reportagens – uma no New York Times (1) e outra na BBC (2) - falando sobre um problema que a dermatologia tem em relação à cor da pele e o outro é falando da dermatologia. Quando li as reportagens, vi que, especificamente para pessoas negras, as lesões dermatológicas estão na palma do pé e da mão, e na unha. Tomei um choque. Entrei na computação para ajudar as pessoas e, sem saber, estava excluindo determinadas pessoas do meu trabalho e dos bons propósitos da minha pesquisa, tudo porque tais dados – lesões nas bases das mãos e pés, e nas unhas – não estavam no conjunto de dados usados para treinar nosso algoritmo.Fiquei com muita raiva e pensei: não vou errar pela segunda vez e, agora, vou focar em fazer isso de uma forma diferente.Fui, então, atrás de um financiamento para um projeto específico voltado à pele negra. Em 2022, a Google lançou um prêmio – o Google Award for Inclusion Research – que ganhamos e conseguimos o financiamento para esse projeto. Mas antes mesmo de ganhar o prêmio, comecei a trabalhar especificamente esse tema com uma aluna, chamada Luana Bastos, e disse a ela que, nesse assunto, nós não tínhamos qualquer dado. O que é que a gente vai fazer? A gente vai pegar base de dados de lesões de pele que existem na literatura e vai procurar dados que estão nas unhas, nas mãos e nos pés. Com isso, vamos separar esses dados específicos do restante da massa de dados. Vamos, então, olhar essa lesão e testar os algoritmos que já temos, para chegar e concluir onde está o problema e como solucioná-lo. O fato é que a localização da lesão dermatológica, para peles negras, tem muita relevância clínica. Veja o caso do Bob Marley: ele foi diagnosticado com câncer de pele muito tempo depois, em estágio avançado, e o melanoma dele estava justamente no pé direito. Outro caso que gostaria de citar: um famoso livro usado como diretriz na Medicina trouxe o primeiro exemplo de câncer em peles negras apenas na década de 1970. E a taxa de sobrevida também é um dado relevante: em relação especificamente ao melanoma, a taxa de sobrevida em peles brancas aumentou de cerca de 60% para mais de 90%, entre 1970 e 2020. Já a taxa de sobrevida da pele negra diminuiu no mesmo período, de 68% para 66%. Acredito, também, que além dessa questão da base de dados, temos um problema cultural: sempre se difundiu que a pele negra era mais forte, que não precisava nem de protetor solar. São muitas camadas de racismo e estou falando, aqui, de um único problema, o câncer de pele. Mas a gente sabe que a questão é maior. Então, temos que levar essa amplitude de dados para configurar os algoritmos que estão sendo desenvolvidos, porque se isso não acontecer, eles vão, de fato, aprender e replicar padrões racistas. Não é o algoritmo que é racista, são as pessoas e isso acaba sendo espelhado na base de dados. Em 2024, provavelmente conseguiremos rodar esse novo modelo de análise oncológica para pele negra.
Camila Pintarelli: Ainda sobre saúde pública, suas pesquisas também abordam a agricultura de precisão. Nesse aspecto, como a IA vem atuando nesse campo? Ela pode se converter em uma grande aliada da segurança alimentar?
Sandra Ávila: Sim, a IA pode se converter em uma aliada da segurança alimentar. Veja a questão da obesidade e a publicidade alimentícia, assuntos diretamente ligados à saúde pública. A IA, via processamento digital de imagens, é capaz de monitorar as publicidades para identificar estratégias de persuasão que influenciem pessoas a consumirem produtos em desconformidade com regras e padrões alimentares. E isso pode ser feito via configuração algorítmica para que tais padrões possam ser identificados. Há, também, a questão da agricultura. Desenvolvi um importante projeto com a Embrapa, que foi bastante significativo para mim porque estava junto com uma instituição que tinha e tem base de dados de informação e que conhece os problemas que quer solucionar. Executamos, nesse projeto, um piloto algorítmico que atua em cachos de uva, o que possibilitou o desenvolvimento e o aperfeiçoamento de algoritmos para aplicação em outros cenários agrícolas, como na identificação de pragas. E o uso algorítmico na identificação e no combate a pragas tem impacto direto na redução do uso de agrotóxicos, o que, consequentemente, também ajuda diretamente nossa saúde, a segurança alimentar e uma melhor alimentação.
Camila Pintarelli: Além das suas fundamentais contribuições científicas à sociedade, a senhora possui grande experiência educacional, sendo Professora e Pesquisadora da Universidade de Campinas. Há pouco tempo, o Ministério da Ciência e Tecnologia brasileiro demonstrou ter tem conhecimento dos desafios da diversidade racial e de gênero em carreiras científicas e tecnológicas, e indicou que pretende ampliar ações afirmativas específicas em cursos de graduação em tais áreas, para proporcionar maior acesso a essas cadeiras acadêmicas (3). Considerando o enorme potencial de inclusão social e de efetivação da igualdade que a tecnologia é capaz de proporcionar – e suas pesquisas são prova disso –, a senhora entende que iniciativas como essas podem auxiliar, em um futuro, na redução dos chamados vieses? Entende que o Brasil poderia ir mais além em políticas educacionais específicas relacionadas a cursos de ciência e tecnologia?
Sandra Ávila: Sim, podem auxiliar e acho que deveriam ser ainda maiores. A existência de políticas afirmativas na área da graduação em carreiras científicas e tecnológicas é fundamental, mas precisamos, também, de políticas que incentivem os alunos a, depois de formados, permanecerem na área acadêmica, na pesquisa e na docência desses cursos, inclusive para servirem de exemplo e inspiração àqueles que estão ingressando.
Em relação à questão de gênero, por exemplo, é importante lembrar que os cursos de computação, nas décadas de 1970 e 1980, eram predominantemente femininos. Após o crescimento da importância tecnológica no dia a dia da sociedade, mais homens passaram a cursar e, de repente, essas carreiras viraram carreiras masculinas. No meu Departamento na Unicamp, eu fui a última mulher a entrar no concurso e isso foi em 2017. Então, há sim necessidade de se promover políticas afirmativas nessas carreiras, seja para o ingresso nos cursos de graduação, seja para bolsas de pesquisa, concursos para docência, porque isso não se resume a “facilitar” o ingresso, mas sim a uma questão de necessidade social.
Camila Pintarelli: Hoje, muito se fala a respeito dos malefícios sociais que a tecnologia e a IA são capazes de causar, em discursos muitas vezes desacompanhados de bases científicas. Por outro lado, suas pesquisas comprovam o relevante impacto positivo às áreas da saúde, agricultura e proteção a grupos vulneráveis, especialmente quando se trata de análise de mídias sensíveis. A IA pode ser aliada da humanidade?
Sandra Ávila: Pode, com certeza pode. A IA é, hoje, considerada tecnologia de propósito geral – é uma categoria que engloba computador, eletricidade, motor a combustão. Então, ela é considerada realmente essencial e pode ser aliada da humanidade. Há muita coisa que precisa ser ajustada, pois, como conversamos, é uma tecnologia que aprende a partir de dados e, se os dados estão errados, então todos os demais resultados acabam sendo errados. Precisamos de muito mais pessoas e mais diversidade, inclusive para concepção dos problemas, para o desenvolvimento e para implantação, até para saber se aquilo está, de fato, funcionando para a finalidade proposta. Mas não tenho dúvidas de que a IA pode ser aliada da humanidade.
Notas
(1) Disponível em https://www.nytimes.com/2020/08/30/health/skin-diseases-black-hispanic.html, acesso em 04 de novembro de 2023.
(2) Disponível em https://www.bbc.co.uk/news/uk-54630783, acesso em 04 de novembro de 2023.
(3) Jornal O Estado de São Paulo. Disponível em https://www.estadao.com.br/ciencia/ministra-quer-replicar-projeto-que-da-bolsas-a-programadores-e-tem-cotas-para-negros/, acesso em 27.10.2023.