Defesa de Exame de Qualificação de Doutorado – Daniel da Silva Costa

Título: Um Estudo Exploratório Sobre o Alinhamento entre a Percepção Humana e Métodos de Explicabilidade de Aprendizagem Profunda.

Resumo: Nos últimos anos, foram observados diversos avanços na área de Aprendizagem Profunda com resultados surpreendentes. Os modelos dessa área são construídos através da aplicação de algoritmos inspirados em redes neurais humanas. Modelos dessa área têm sido cada vez mais utilizados em inúmeros sistemas, incluindo aqueles que lidam com decisões sensíveis à vida humana, que necessitam de explicações e justificativas claras, como, por exemplo, na área da Medicina e na do Direito. Tendo em vista a natureza complexa dos modelos construídos com redes neurais artificiais, o que torna impraticável, ao ser humano, a análise dos parâmetros internos do modelo, as comunidades científica e técnica tem fomentado cada vez mais pesquisas e propostas de métodos no âmbito da explicabilidade desses modelos. Embora o tópico de explicabilidade não seja novo na grande área de Inteligência Artificial, a avaliação dos métodos de explicabilidade, voltados para a área de Aprendizagem Profunda, carece de métricas e metodologias que permitam comparar e analisar os resultados dos métodos de forma justa e confiável, sendo a área mais urgente a avaliação com base na percepção humana, tendo em vista a crescente utilização, por pessoas leigas, de sistemas inteligentes que utilizam modelos de Aprendizagem Profunda. Sendo assim, o presente trabalho baseia-se na hipótese de que as métricas atuais não refletem com exatidão a percepção humana e propõe uma investigação sobre o alinhamento dos resultados dos métodos de explicabilidade com a percepção humana na tarefa de classificação de imagens. Serão utilizados modelos de Aprendizagem Profunda tradicionais, com arquiteturas que utilizem camadas convolucionais, como, por exemplo, os modelos construídos com a arquitetura ResNet. No presente trabalho, a percepção humana será obtida por meio de anotações em imagens usando a plataforma de crowdsourcing Appen, com a indicação dos objetos-alvos das classes de cada imagem (bounding-boxes). Os bounding boxes serão tratados como verdade fundamental (ground truth) e o presente trabalho buscará validar o alinhamento dos mapas de saliência (heatmaps) gerados pelos métodos de explicabilidade com a percepção humana. Também estão sendo utilizadas anotações existentes em datasets comumente vistos em pesquisas da área de Visão Computacional, como, por exemplo, o ImageNet. Os métodos de explicabilidade selecionados até o momento, pertencem ao grupo de Class Activation Maps (CAM), como, por exemplo, o Grad-CAM e o Score-CAM. Alguns experimentos preliminares foram realizados usando uma métrica tradicionalmente aplicada para a avaliação de métodos de explicabilidade, a Intersection over Union, e uma métrica de similaridade, cuja utilização, para o mesmo fim, ainda não foi vista pelo autor do presente trabalho, chamada Weighted Jaccard. Os resultados preliminares demonstram a viabilidade da aplicação da Weighted Jaccard no problema de comparação de métodos de explicabilidade baseados em heatmaps. Os resultados dos experimentos preliminares servem ainda como inspiração para que novos experimentos sejam realizados com anotações poligonais em imagens ao invés de bounding boxes. A validação do alinhamento entre a percepção humana e os resultados dos métodos de explicação, será realizada por meio da construção e da aplicação de um experimento de validação com seres humanos, através da Appen, com um grupo diferente de pessoas, com a finalidade de verificar-se se a aplicação de métricas de similaridade foi efetiva. Para tanto, pretende-se exibir para os participantes do experimento de validação, as explicações (heatmaps) gerados pelos métodos de explicabilidade, para novas imagens, sem a exibição do nome dos métodos, para que as pessoas indiquem quais as explicações que melhor destacam o objeto-alvo em cada imagem. Assim, será possível analisar os resultados indicados pelas métricas de similaridade em comparação com a percepção humana derivada do experimento de validação.

Palavras-chave: Inteligência Artificial Explicável, Explicabilidade, Interpretabilidade, Visão Computacional, Aprendizagem Profunda.

Composição da banca
Prof. Dra. Adriana Cesário de Faria Alvim (Orientadora) – UNIRIO
Prof. Dr. Pedro Nuno de Souza Moura (Coorientador) – UNIRIO
Prof. Dr. Jefferson Elbert Simões  – UNIRIO
Prof. Dr. Jean-Pierre Briot – Sorbonne Université

Data e local

22 de agosto de 2024
13:00 horas
Auditório do PPGI – Centro de Ciências e Tecnologia – UNIRIO