Defesa de Qualificação de Mestrado-Leonardo Souza

Defesa de Qualificação de Mestrado – Leonardo Souza

Título do Trabalho: Robustez Adversarial de Modelos de Visão e Linguagem Contra Ataques de Caixa Preta Direcionados. 

Resumo
: Os modelos multimodais de visão e linguagem (VLM) têm atraído grande interesse acadêmico pelo alto desempenho em tarefas que envolvem a inferência nas modalidades de imagem e texto simultaneamente. O sucesso dos VLMs é observado na sociedade de modo geral, através de chatbots poderosos como o ChatGPT e o Google Gemini, além de setores específicos da indústria, como processos industriais, arquitetura e construção, engenharia biomédica, engenharia de sistemas, comunicação corporativa, medicina, entre outros. Em contraste com modelos proprietários, VLMs de código aberto como o MiniGPT-4 surgiram como alternativas compactas que demonstram desempenho robusto. No entanto, esses modelos apresentam certas vulnerabilidades a dados de entrada ruidosos (por exemplo, imagens), o que pode comprometer a confiabilidade das respostas e ser explorado por ataques adversariais. Ataques mais sofisticados também podem forçar um VLM a gerar uma saída específica por meio de configurações de ataque direcionado. Nesta pesquisa, exploramos o conceito de certificação de robustez para tornar um VLM resistente a ataques direcionados de caixa preta, utilizando a técnica de suavização aleatória. Primeiramente, realizamos o ajuste fino do modelo MiniGPT-4 em um pequeno subconjunto do VQAv2 e aplicamos ruídos Gaussianos às imagens de entrada. Também adaptamos um método suavizado que encapsula o decodificador original do MiniGPT-4 e gera a resposta mais provável, mesmo na presença de ruído nas imagens de entrada. Por fim, avaliamos o modelo contra ataques direcionados de caixa preta. Nossa versão certificada do MiniGPT-4, quando avaliada em um pequeno subconjunto do VQAv2, apresentou resultados estatisticamente significativos, demonstrando que a suavização aleatória é uma abordagem viável para certificar a robustez de VLMs, especialmente em cenários com acesso limitado a GPUs de alto desempenho

Banca Examinadora:
Pedro Nuno de Souza Moura (UNIRIO)
Maíra Athanázio de Cerqueira Gatti UNIRIO
Jefferson Elbert Simões (UNIRIO)
Guilherme Gonçalves Schardong (Universidade de Coimbra)

Suplentes:
Adriana Cesário de Faria Alvim (UNIRIO)
Jorge de Abreu Soares CEFET-RJ

Data e Hora da Defesa: 29/09/2025 às 15:00
Orientadores – Pedro Nuno de Souza Moura e Maíra Athanazio de Cerqueira Gatti
Local da Defesa: https://meet.google.com/owu-viyk-xiv