Mais sobre o colunista

6 min de leitura

Federated learning: IA mais afiada e com maior privacidade

Idealizado pela Google e adaptado na área da saúde pela NVIDIA, novo modelo de inteligência artificial mantém dados restritos nos locais de origem, impede a invasão de privacidade e garante o anonimato de informações sensíveis

Gustavo Meirelles
30 de julho de 2024
Federated learning: IA mais afiada e com maior privacidade
Este conteúdo pertence à editoria Tecnologia, IA e dados Ver mais conteúdos
Link copiado para a área de transferência!

“A inteligência artificial (IA) já é realidade em diversas indústrias, e o mercado de saúde não poderia ficar de fora. São diversos os casos de uso idealizados até o momento, alguns testados e validados no mundo real. Como exemplos, citamos o aumento da acurácia no diagnóstico para algumas doenças, a previsibilidade de faltas de pacientes (“no show”) no dia do exame, a aceleração da aquisição de imagens de ressonância magnética, a priorização automática de exames de pacientes com doenças críticas, a redução de dose de radiofármacos em exames de PET/CT e a predição do prognóstico de pacientes, entre outros.

No entanto, a IA não é isenta de riscos. São necessários diversos cuidados desde o desenvolvimento dos modelos algoritmos até a etapa final de uso e monitoramento dessas ferramentas. Neste artigo, não abordaremos os cuidados necessários no uso e no monitoramento. Iremos falar das armadilhas e riscos no processo de desenvolvimento dos algoritmos.

Cuidado ao treinar a base de dados

A primeira grande cilada que alguém pode encontrar, ao se propor a desenvolver uma solução de IA, é selecionar de maneira inadequada a base de dados para treinamento e validação do algoritmo. O que seria isso? Para entendermos a importância da escolha da base de dados, precisamos primeiro entender como um algoritmo funciona.

Os modelos de IA aprendem com exemplos, e não com instruções. Uma pessoa não programa o computador para fazer algo, mas dá diversos exemplos de uma dada tarefa para que a ferramenta aprenda a melhor forma de realizá-la. Portanto, exemplos bons e numerosos levam a um aprendizado muito melhor e consistente do que poucos e maus exemplos.

No entanto, como saber se escolhemos modelos corretos para treinar o nosso modelo de IA? A resposta é simples de entender e difícil de colocar em prática: precisamos de uma boa base de dados para validação. O que isso significa? Para sabermos se o nosso modelo de IA funciona bem, precisamos ter uma base de dados de validação que represente o ambiente onde desejamos utilizá-lo. Ao compilarmos tal base de dados, podemos testar de maneira confiável o quão acurado o nosso modelo será no mundo real. Com isso, saberemos se os exemplos usados para treinamento resultarão em um modelo que funcionará na prática diária.

A experiência mostra, com frequência, que treinar um modelo com os dados de uma instituição geralmente leva a um algoritmo que funciona bem naquele local, mas não necessariamente em outros. Treinar um modelo com os dados de diversas instituições leva a um modelo melhor e com capacidade de funcionar bem em diversos cenários e ambientes. Portanto, se você deseja criar um algoritmo que opere de forma mais consistente, você precisará de dados do mundo todo, algo bastante difícil de conseguir.

Privacidade e informações sensíveis

São diversas as dificuldades para conseguir dados globais para um treinamento adequado e consistente de um modelo de IA. Pode parecer que estamos falando de problemas de tecnologia da informação para transferir grandes volumes de dados de diversos locais do mundo para um só ambiente. De fato, esse é um empecilho.

Entretanto, existe outra etapa ainda mais trabalhosa e crítica: garantir que os dados sejam anonimizados adequadamente para preservar a privacidade dos indivíduos que deram origem aos mesmos. Isso é particularmente importante na área da saúde, que contém muitas informações sensíveis.

Como o processo habitual de treinamento de modelos envolve transferir todos os dados para um computador central, é essencial que cada instituição de origem garanta a anonimização das informações. Em termos práticos, esse é um trabalho hercúleo e de extrema dificuldade técnica. Como resolver esse problema?

Se os dados não vão até o algoritmo, o algoritmo vai até eles: esse é um resumo simplificado do federated learning (FL) – aprendizado federado ou descentralizado. O FL foi idealizado inicialmente pela Google e adaptado para uso na área da saúde pela NVIDIA. Consiste em manter os dados de cada instituição dentro dos locais de origem, de forma que mesmo que haja uma falha no processo de anonimização, os dados nunca saem daquele ambiente, impedindo a quebra de privacidade das pessoas.

Os detalhes técnicos de como o FL é implementado fogem do escopo desse artigo, mas basta sabermos que em vez de transferirmos os dados para um computador centralizado, o processo ocorre ao contrário. Cada computador local recebe uma cópia da versão atual do modelo para que o treinamento seja realizado localmente.

Os modelos resultantes de cada instituição são enviados para o servidor central, que compila os resultados e gera um novo modelo atualizado, que será utilizado no próximo ciclo de treinamento em cada computador local. Esse processo se repete sucessivamente. Com isso, temos um modelo treinado em diversas instituições e com uma acurácia maior do que se tivéssemos treinado o algoritmo apenas com dados locais.

Pesquisas e cases sobre o FL

Alguns estudos já foram publicados utilizando o FL para criar algoritmos para a área da saúde, como um para caracterização da densidade mamária pela mamografia. Outra pesquisa, publicada na Nature Medicine, utilizou o FL para criar um algoritmo para prever a necessidade de oxigênio suplementar em pacientes com covid-19. Esse foi o maior estudo com FL na área da saúde realizado até o momento, incluindo mais de 20 hospitais mundialmente.

Em resumo, o FL é capaz de criar algoritmos de IA mais acurados e com uma etapa extra para proteger a privacidade das pessoas, propiciando a criação de algoritmos melhores e mais seguros, com impactos positivos para todos: médicos, hospitais, clínicas e pacientes agradecem.

Este artigo foi escrito em parceria com Felipe Kitamura, head do laboratório de inteligência artificial da Dasa, sendo responsável pelo desenvolvimento, validação e integração de algoritmos de machine learning da saúde.

Gostou do artigo escrito por Gustavo Meirelles e Felipe Kitamura? Saiba mais sobre o uso de tecnologias da indústria 4.0 no setor de saúde assinando nossas newsletters e ouvindo nossos podcasts na sua plataforma de streaming favorita.“”

Gustavo Meirelles
É fundador, investidor e conselheiro de startups, principalmente na área da saúde. Médico radiologista, com especialização, doutorado e pós-doutorado no Brasil e no exterior. Tem experiência como executivo de grandes empresas de saúde, com MBA em gestão empresarial. Mais informações em: www.gustavomeirelles.com.

Deixe um comentário

Você atualizou a sua lista de conteúdos favoritos. Ver conteúdos
aqui