Projetos de inteligência artificial podem nunca sair do laboratório se as empresas não gerenciarem o acesso aos dados durante todo o ciclo de desenvolvimento e produção
Aequipe de um grande hospital dos Estados Unidos estava animada com o potencial de um sistema habilitado por inteligência artificial (IA) que melhoraria o atendimento aos pacientes. Quando planejava passar do conceito para a construção de um protótipo, descobriu que os dados necessários para construir e operar a novidade estavam espalhados por 20 sistemas legados e que recuperá-los seria uma tarefa muito complexa. O projeto teve de ser descartado.
O analytics avançado e a IA prometem dar ideias que ajudarão na competitividade da empresa. Mas a capacidade de ambos conseguirem isso depende em grande medida da disponibilidade de bons dados. Ainda são muitas as empresas que não têm dados bons o suficiente para fazer a IA funcionar.
Recentemente, estudamos como as empresas fazem suas iniciativas de IA migrarem da fase de pesquisa e desenvolvimento (P&D) para a de produção e os problemas que encontram ao fazê-lo. O estudo se baseou em entrevistas com os principais líderes de IA e operações de seis empresas americanas de diferentes portes e setores. Descobrimos que o problema maior é realmente de qualidade de dados e que, embora muitos já foquem qualidade em termos de precisão e completude, não focam o grau em que esses dados são acessíveis por máquinas [veja quadro na pág. 73]. Pior, a acessibilidade aos dados é, muitas vezes, tratada como problema de TI, quando é um problema de gestão agravado por equívocos específicos.
Mesmo que as empresas estejam repletas de dados, o acesso a eles é um desafio em quase todas, e especificamente no contexto da IA (tanto em desenvolvimento como em operação). Isso ocorre por duas razões interrelacionadas, descritas a seguir.
No cerne da maioria dos problemas de acessibilidade aos dados está o fato de as iniciativas de IA envolverem grupos muito diferentes de atores, com interesses distintos na matéria.
Os líderes de negócios normalmente se envolvem no início e no final do processo – ajudando a definir os casos de uso de IA e aproveitando o produto final. Mas tendem a não pensar sobre como os dados são acessados. “Eles sempre acreditam que têm todos os dados necessários e querem começar logo”, nos disse o VP de uma consultoria de IA. “Então, nós abrimos o capô. Pegamos PDFs e planilhas de Excel e [aplicando o reconhecimento ótico de caracteres] processamos isso. Nunca é fácil.”
Os cientistas de dados, que desenvolvem, testam e mantêm modelos, estão focados na obtenção dos dados necessários para desenvolver modelos. O interesse deles na acessibilidade aos dados é baixo.
Os engenheiros de dados, que constroem a infraestrutura necessária para gerar os dados usados nos modelos dos cientistas de dados, estão moderadamente preocupados com a acessibilidade. Porém, costumam pressupor – às vezes, de forma incorreta – que os dados extraídos para fazer o protótipo estarão prontamente acessíveis para uso na fase de produção.
Os engenheiros de software são os que mais sofrem com a não acessibilidade dos dados, pois são quem empacota a IA em um produto ou serviço capaz de fornecer dados em um ambiente de produção.
Os profissionais do time de TI raramente são considerados atores principais nas iniciativas de inteligência artificial; eles dão o suporte à infraestrutura tecnológica exigida pela IA, incluindo dados. O trabalho deles ajuda a garantir a conformidade com políticas de segurança e mecanismos de governança que protegem os ativos de dados e os tecnológicos.
A visão sobre acessibilidade aos dados de cada um desses cinco stakeholders é limitada às suas responsabilidades imediatas. Isso fica claro no depoimento de um líder de IA de uma grande instituição financeira sobre o pessoal da TI. Como ele nos disse, sua equipe precisa obter grandes quantidades de dados dos sistemas operacionais da empresa, muitos dos quais rodam em mainframes e não foram construídos para suportar esses requisitos de acesso a dados – não ao mesmo tempo em que dão suporte às operações regulares. Então, quando os funcionários de TI, responsáveis por manter tais sistemas operacionais funcionando, ouvem os requisitos dos projetos de IA, ficam pouco ou nada receptivos.
Veja o que um deles chegou a dizer ao nosso entrevistador: “Eu não quero que geeks recém-saídos da escola venham e recuperem 15 terabytes por dia, porque tudo vai travar”.
O ciclo de vida típico de iniciativas da inteligência artificial leva as equipes a se concentrar no desenvolvimento rápido e interativo de modelos. Isso atrasa conversas importantes sobre acessibilidade aos dados, especialmente aquelas relacionadas à real implementação de IA dentro da empresa. Durante esse processo, muda tudo.
Muda a natureza da acessibilidade aos dados em relação às estruturas de gerenciamento de dados da empresa, aos seus mecanismos e à infraestrutura tecnológica, que passa de desconectada para conectada. Muda o envolvimento dos principais stakeholders conforme a inteligência artificial deixa de ser uma mera ideia para ser um produto ou serviço real em uso na empresa.
Vale a pena examinar cada uma das cinco fases do ciclo de vida típico da IA, conforme o que observamos nas seis empresas estudadas:
FASE 1: Ideação. Serve como um filtro para identificar possíveis business cases para IA na empresa. A maioria das conversas durante essa fase é entre gerenciadores, consultores de negócios e assessores científicos (muitos deles, acadêmicos em tempo integral). O objetivo é criar um espaço de encontros para negócios e para a ciência. Os casos de negócios que surgirem devem parecer promissores e viáveis. Nas empresas de consultoria de IA, esse primeiro passo educa os clientes sobre o potencial da inteligência artificial. Porém, nessa fase, a ênfase é na existência dos dados e não na acessibilidade. As discussões giram em torno dos objetivos de negócios e da aplicação de modelos de IA para resolver problemas.FASE 2: Projeto. Nem todos os cases gerados na fase de ideação serão selecionados para implementação dentro de um determinado período por causa de prioridades, limitações de recursos ou falta de valor potencial. Nessa etapa, geram-se casos de uso abrangentes, que incluam detalhes como objetivos de negócios claros e mensuráveis, um plano de ação que descreva técnicas específicas de IA e os elementos de dados que devem estar disponíveis para alimentar a inteligência artificial. Na fase de projeto, a acessibilidade aos dados ainda é avaliada só com base na existência de dados. A suposição é: se os dados estiverem lá, isso já basta, porque permite que a equipe avance.
FASE 3: Prova de conceito. Os cientistas de dados constroem um ou mais modelos matemáticos para implementar os casos de uso escolhidos. A maior parte do trabalho é focada na repetitiva criação, no treinamento e na testagem de modelos para medir seu desempenho relativo entre si e para ver se a IA realmente corresponde às expectativas com novos dados. Estes são extraídos dos sistemas de origem e transformados por engenheiros de dados para que estejam em conformidade com requisitos de formato e precisão dos modelos em construção. Apesar de a solução poder ser, no final, entregue por meio de um aplicativo com uma interface de usuário ou fortemente integrado aos processos de negócios das empresas (para alterar um processo de pedido de crédito num banco, por exemplo), a fase de prova de conceito (PoC) ainda não foca esses esforços. As equipes se concentram em fazer os dados permitirem que seus trabalhos avancem no curto prazo, dando pouca importância a como serão acessados quando a IA entrar em produção.
FASE 4: Produto mínimo viável. Quando uma variante da prova de conceito demonstra valor suficiente, ela é refinada como um produto mínimo viável (MVP, na sigla em inglês). Nesse ponto, os cientistas e os engenheiros de dados saem de cena e os engenheiros de software assumem o controle, já que a IA vai, finalmente, sair do laboratório, ser adicionada à infraestrutura da empresa e integrada a outros sistemas (se isso for aplicável). Quando engenheiros de software e times de TI ficam mais envolvidos nas discussões sobre as especificações e a integração da solução que será entregue, questionamentos relacionados com acessibilidade ganham mais importância: podem revelar se uma característica crucial usada num determinado modelo demanda um trabalho significativo e não planejado.
FASE 5: Produção. Nessa última fase, o MVP refinado, que contém a IA, entra em produção e precisa ser alimentado com dados vindos diretamente dos sistemas de produção. Os dados podem ter de ser puxados de múltiplos sistemas e transformados para gerar informações para o modelo dar suporte ao caso de negócio em produção. Não importa se isso acontece em tempo real ou em etapas (por exemplo, reter e testar novamente um modelo em intervalos frequentes); é aqui que os problemas reais relacionados à integração de IA surgem, em especial no que se relaciona à infraestrutura de dados da empresa. Caso as informações não possam vir num determinado volume ou velocidade (devido aos sistemas legados, por exemplo), a IA pode perder todo o seu valor potencial.
Além de compreender diferentes papéis e fases do desenvolvimento de IA e seus impactos na acessibilidade aos dados, é importante entender alguns equívocos básicos sobre a natureza dos dados e como ela é tratada em muitas empresas.
EQUÍVOCO Nº 1: Crer que a acessibilidade aos dados é uma questão de TI. Problemas tecnológicos, mesmo os mais complexos, podem normalmente ser resolvidos com o talento certo e com recursos. Os participantes da nossa pesquisa argumentaram que a acessibilidade aos dados é realmente uma questão de gestão que envolve tecnologia. Soluções de IA precisam começar com um entendimento claro de que dados completos, precisos e no tempo certo não têm valor se não puderem ser recuperados de modo rápido e fácil. Algumas vezes, a governança deles ou políticas de segurança restringem o acesso.A competição entre as prioridades do negócio e das equipes de TI existe há décadas. Quando se adiciona as prioridades dos times de IA a isso, rapidamente a situação se complica. Se a acessibilidade de dados for tratada apenas como um problema técnico, os produtos e serviços de IA podem ficar parados na fase de prova de conceito até que os desafios sejam resolvidos por outras equipes, causando atrasos e custos adicionais. Ou podem morrer. Nos dois casos, não é o modelo de IA que fracassa; é a acessibilidade de dados.
EQUÍVOCO Nº 2. Ver os dados como um mero subproduto das operações. Esse equívoco é visto com frequência em empresas nas quais o analytics e os esforços de IA ficam separados das operações – e onde ainda não foi reconhecido o potencial da IA para aumentar ou revolucionar os processos. Por isso, sistemas operacionais (como ERP e CRM) consomem e produzem dados, mas não há entendimento sobre o valor potencial desses dados para a inteligência artificial. Se os times de analytics e de IA querem usar dados vindos das operações, eles mesmos precisam recuperá-los e alavancá-los.Onde esse equívoco prevalece, os dados tendem a ser subutilizados em IA, ainda que abundantes. Em geral, isso acontece porque os vestígios digitais de processos de negócios são, frequentemente, fragmentados nos sistemas operacionais. Isso torna desafiador recuperar os dados necessários para criar um retrato coerente desses processos. O potencial estratégico dos dados como uma contribuição para a criação de valor é pouco explorado.
EQUÍVOCO Nº 3: Acreditar que a acessibilidade aos dados pode ser tratada nas fases finais do ciclo de vida da IA. As cinco fases são feitas para que os profissionais trabalhem no modo ágil; a natureza incerta da IA requer métodos ágeis. Mas, infelizmente, isso também encoraja as equipes a focar quase exclusivamente o lado científico do trabalho. Nas fases iniciais, o foco dos engenheiros de dados é criar “flat files” (arquivos no formato de texto plano) que os cientistas de dados possam usar para desenvolver e treinar modelos. Qualquer meio que tenham à mão para gerar esses arquivos –incluindo dados simulados – é considerado justo.Para um sistema habilitado em IA agregar valor a uma empresa, tem de ser formatado como um produto ou serviço que pode ser integrado à sua infraestrutura. Só que, com frequência, receios sobre integração são tratados no final do ciclo. Engenheiros de software e profissionais de TI viram portadores de más notícias. Quando não cuidam da acessibilidade aos dados no início, as empresas têm custos adicionais e imprevistos. Além disso, os projetos podem parar quando as prioridades de stakeholders como o time de TI são conflitantes com a acessibilidade.
EQUÍVOCO Nº 4: Achar que os dados no laboratório e nas operações são os mesmos. É comum que se presuma que o processo de recuperação de dados feito na fase da prova de conceito pode ser replicado com pouco ou sem custo, uma vez que IA passa pelo MVP e depois para produção. Mas, recuperar os dados na prova de conceito parte de poucos flat files de dados que foram criados especificamente – em geral, a partir de dados históricos – para a construção e teste dos modelos.Na fase de produção, a IA precisa estar conectada a vários sistemas prontos para entrar em produção e que recuperam as informações necessárias para fazer seu trabalho – às vezes, em tempo real. As características dos dados que precisam ser extraídos podem ser as mesmas, mas a maneira como são acessados e recuperados é muito diferente. Por exemplo, o volume e a velocidade requeridos dos dados para operações podem diferir muito do que é necessário para treinar modelos. Não à toa, algumas das consultorias de negócios de IA que estudamos limitam seus mandatos ao desenvolvimento das provas de conceito para evitar a questão de dados em produção.
Esse equívoco faz com que as iniciativas de IA comecem rapidamente, mas levem um tempo considerável e imprevisto, e consumam muito esforço para operar em produção.
Problemas de acessibilidade aos dados podem afetar o sucesso de IA numa empresa. Para melhorar isso, recomendamos que três entendimentos comuns sejam combinados com os stakeholders:1. Acessibilidade aos dados é um problema de gestão acima de tudo,2. Todos os dados corporativos têm valor e3. A preocupação com a acessibilidade dos dados por máquinas deve estar presente em todo o ciclo de vida de um programa de inteligência artificial.
Primeiro, promova a acessibilidade de dados como uma questão de negócio e, só depois, como um problema de tecnologia. Pode levar algum tempo para todos os stakeholders mudarem a forma de ver a acessibilidade aos dados; isso requer muitas conversas e colaboração que nem sempre ocorrem. Numa das consultorias de IA que estudamos, a acessibilidade aos dados se tornou parte das discussões iniciais com os clientes da liderança sênior e está incorporada na fase de ideação do ciclo de desenvolvimento de IA. Em outros casos, são promovidas muitas discussões entre todos os stakeholders para garantir que o alinhamento entre as necessidades dos times de IA e os recursos da empresa (como a equipe de TI) seja definido e mantido ao longo do tempo.
É quase certo que apenas estabelecer que a acessibilidade aos dados é negócio, no nível estratégico, será insuficiente. Será preciso esforço e atenção permanentes. Do contrário, tudo vai parar na fila de coisas a resolver pela TI, como um problema de tecnologia.
Isso também significa educar os membros do time de inteligência artificial sobre a importância de identificar e levar problemas de acessibilidade aos líderes de negócios. O conserto tecnológico para um problema de acesso aos dados pode ser simples, mas talvez demande um processo de aprovação longo. Além disso, políticas de segurança podem, como já dissemos, tornar as informações inacessíveis. Nesses casos, não há solução tecnológica que resolva. Deve-se discutir sobre relaxar alguns aspectos da política de segurança para dar apoio à equipe de TI. (Se o business case da fase de ideação permitir.)
Veja qualquer dado como candidato potencial para IA. Um elemento-chave para melhorar a acessibilidade aos dados na empresa é ir além do conceito de que dados são apenas um subproduto das operações. Qualquer dado ser um candidato potencial significa que, mesmo que tenha terminado sua vida útil num determinado processo ele ainda pode ajudar na criação de valor contribuindo para IA. Num dos casos que estudamos, o histórico de anos de informações sobre sistemas de aquecimento, ventilação e ar-condicionado é input dos modelos preventivos de manutenção.A tão propalada cultura orientada por dados, na qual os funcionários se apoiam neles para tomar decisões, foca, em geral, o produto final – o uso de dados extraídos – e não o processo para levar as informações a esses funcionários. O necessário é que as áreas de negócios entendam que os dados que produzem podem ser contribuições para IA.
Por exemplo, o histórico dos funcionários que viajam para prestar serviços costuma ser usado para monitorar produtividade e assegurar que as cotas de pedidos de serviços sejam distribuídas corretamente. Mas, se usados para IA, podem servir para otimizar e personalizar a escala. O entendimento de que os dados têm um duplo papel, de output e input, pode influenciar a escolha de uma solução ou de um fornecedor ou ainda da configuração de um sistema.Dos casos que estudamos, de maior sucesso foram aqueles em que os processos operacionais foram construídos com a ideia de que seus sistemas de suporte acabariam por fornecer dados para a IA.
Aborde a acessibilidade aos dados desde o princípio das iniciativas de IA. O desenvolvimento iterativo do produto de IA não impede pensar sobre a acessibilidade aos dados no início, fazendo as coisas certas logo no começo. Em alguns dos casos estudados, isso significou conseguir a participação de engenheiros de software e funcionários de TI na segunda fase do ciclo, a de projeto, de modo que os parâmetros de alto nível do produto ou do serviço finais incorporados à IA fossem amplamente conhecidos e as preocupações com a acessibilidade aos dados pudessem ser discutidas. Mais importante, isso garantirá a integração futura da IA à infraestrutura.
Um dos principais benefícios dessa abordagem é que ela permite que parte do trabalho seja executada em paralelo. Por exemplo, se engenheiros de dados tiverem discussões com a equipe de TI desde o início para estabelecer um roteiro de dados, na fase MVP, a maioria dos pipelines de engenharia de dados estará pronta para se conectar à infraestrutura de produção. Outro padrão possível é escalonar tarefas relacionadas à acessibilidade de dados, engenharia de dados e construção de modelos em diferentes iterações, semelhante ao que foi proposto em projetos intensivos em dados. Vale incorporar um certo grau de atraso que possa permitir ajustes, se necessário.
A VISÃO DE QUE OS DADOS são um ativo-chave se disseminou nas empresas. Mas falta valorizá-los tanto como input quanto como output e dar à acessibilidade aos dados a atenção que merece.
O que são bons dados?
Dados de alta qualidade são aqueles adequados para uso dos consumidores de dados – lembrando que, em IA, as máquinas são os grandes consumidores de dados, não os seres humanos. As máquinas processam esses dados para gerar conhecimentos que, aí sim, serão usados por humanos (como um analista ou um empresário) – ou por outra máquina. Assim, a qualidade dos dados abrange quatro dimensões: intrínseca (sua precisão), contextual (sua completude), representacional (sua interpretabilidade) e de acesso (sua disponibilidade ou quão fácil e rapidamente é recuperável). Para serem considerados de alta qualidade, os dados precisam satisfazer todas as quatro dimensões.
“