8 min de leitura

A corrida de machine learning é uma corrida de dados

Organizações que esperam transformar a IA num diferencial precisam se basear em conjuntos de dados alternativos – aqueles que elas mesmas podem criar

Megan Beck e Barry Libert
30 de julho de 2024
A corrida de machine learning é uma corrida de dados
Este conteúdo pertence à editoria Tecnologia, IA e dados Ver mais conteúdos
Link copiado para a área de transferência!

Machine learning (ou inteligência artificial, se preferir) já se tornou uma commodity. Empresas que correm para definir e implementar machine learning estão descobrindo, para sua surpresa, que implementar algoritmos para tornar máquinas inteligentes sobre um conjunto de dados ou problema é a parte mais fácil. Há uma quantidade grande de soluções plug-and-play para realizar o maior esforço de programação, desde a estrutura de machine learning da Google, TensorFlow, a Azure Machine Learning da Microsoft e o SageMaker da Amazon.

Entretanto, o que não é commodity são os dados. Em vez disso, os dados têm surgido como o diferencial na corrida de machine learning. Isso acontece porque bons dados não são fáceis de achar.

Dados úteis: valiosos e raros

Os dados estão se tornando um diferencial porque muitas empresas simplesmente não têm o que precisam. Embora as empresas têm se avaliado de forma sistêmica e usando princípios contábeis conhecidos há décadas, essa avaliação há tempos foca bens físicos e financeiros – coisas e dinheiro. Até um Prêmio Nobel foi concedido para a precificação de ativos de capital, em 2013, reforçando essas prioridades já muito bem estabelecidas.

Mas as empresas mais valiosas de hoje operam sobre software e redes, não apenas bens físicos e ativos de capital. Ao longo dos últimos 40 anos, o foco dos ativos mudou por completo, de um mercado dominado por 83% de ativos tangíveis em 1975 para 84% de ativos intangíveis em 2015. Em vez de fabricar cafeteiras e vender máquinas de lavar, os gigantes corporativos de hoje oferecem aplicativos e conectam pessoas. Essa mudança criou uma incompatibilidade entre o que avaliamos e o que gera valor de verdade.

O resultado é que bons dados são, infelizmente, raros. Há uma lacuna crescente entre os valores de mercado e os valores contábeis. Por conta dessa lacuna, empresas estão correndo para utilizar machine learning em decisões de negócios importantes, até mesmo substituindo alguns de seus consultores caros1, até perceberem que os dados que precisam nem existem ainda. Basicamente, os sistemas sofisticados de IA acabam sendo aplicados sobre os mesmos dados, antigos e de baixa qualidade.

Assim como pessoas, o sistema de machine learning não saberá atuar em um tópico até que o compreenda. Máquinas precisam de muitos mais dados que humanos para serem inteligentes – embora, claro, elas leiam dados muito mais rapidamente. Portanto, embora haja uma corrida clara conforme empresas contratam programadores de machine learning e lançam iniciativas de IA, também há uma corrida desesperada por dados novos e diferentes acontecendo nos bastidores.

Em finanças, por exemplo, dados alternativos vão além dos tradicionais relatórios e apresentações para investidores da SEC (Securities and Exchange Commision) que influenciam decisões de investimento. Dados alternativos, como a visão que as pessoas têm da sua marca nas redes sociais ou o número de patentes concedidas, são essenciais por dois motivos importantes.

Primeiro, dados tradicionais focam em bens tradicionais, e isso não é expansivo o suficiente na era dos ativos intangíveis. Segundo, não há motivo para se preocupar em usar machine learning para estudar o mesmo conjunto de dados que todos no mercado estão analisando. Qualquer um que tenha interesse já tentou correlacionar as tendências da indústria, margens de lucro, taxa de crescimento, EBIT, giro de ativos e retorno sobre ativos – junto com mais de mil outras variáveis comumente relatadas com o retorno para o acionista.

Procurar conexões nos materiais que todo mundo tem não vai ajudar as empresas a vencer. Em vez disso, as organizações que desejam usar IA como um diferencial terão que encontrar relações entre novos conjuntos de dados – conjuntos que talvez elas mesmas tenham que criar para avaliar os ativos intangíveis.

Faça uma curadoria com atenção

A criação de dados é mais complexa do que simplesmente agregar informações de pontos de venda ou clientes e jogá-las em um banco de dados: a maioria das organizações acredita erroneamente que um caminho rápido envolve reunir todos os fragmentos de dados possíveis e vasculhar todos meticulosamente na esperança de encontrar algo que lembre um insight – a característica misteriosa que prediz ou categoriza algo com o qual elas se importam.

Embora machine learning possa nos surpreender ocasionalmente com um achado brilhante que ninguém descobriu, a tecnologia não é capaz de fornecer esses insights com consistência. Isso não significa que a ferramenta não é adequada, significa que temos de utilizá-la com sabedoria. É mais fácil falar do que fazer: por exemplo, na nossa pesquisa do mercado de dados alternativos, descobrimos que mais da metade dos fornecedores de dados ainda está focada em avaliar ativos físicos e financeiros.

A etapa que muitas organizações pulam é a criação de uma hipótese sobre o que importa. Machine learning brilha ao pegar as ideias que humanos tiveram – baseado em regras práticas, percepções amplas ou relacionamentos mal compreendidos – e desenvolver um método mais rápido, compreensível e escalonável para aplicar aquela ideia.

Para usar machine learning dessa forma, você não alimenta o sistema com todos os dados de qualquer campo relacionado. Você o alimenta com um conjunto de informações curadas com cuidado, , e talvez ampliar o conhecimento que as pessoas já têm.

Insights de machine learning vêm de dados diferentes

Tudo isso tem três implicações específicas para empresas que desejam criar aplicativos de machine learning realmente úteis:

Dados diferenciados são a chave para uma iniciativa de IA de sucesso. Você não descobrirá nada de novo trabalhando com os mesmos dados de sempre e de seus concorrentes. Olhe internamente, identifique o que sua organização conhece e entende de maneira única e crie um conjunto de dados distinto usando esses insights. Os aplicativos de machine learning exigem um grande número de dados, mas isso não significa que o modelo tenha que considerar uma gama ampla de fontes. Concentre seus esforços de dados onde sua organização já tem um diferencial.

Dados significativos são melhores que dados abrangentes. Você pode ter dados ricos e detalhados sobre um tópico que não é tão útil. Se sua empresa não usar essa informação para auxiliar no processo de tomada de decisão e para esta finalidade, então os dados provavelmente não serão valiosos do ponto de vista de machine learning. Um arquiteto especialista em machine learning fará perguntas sobre quais campos são importantes, e como esses campos serão importantes na aplicação dos insights que você tem. Se essas perguntas forem difíceis de responder, então você não refletiu o suficiente para produzir um valor prático.

O que você sabe deveria ser o ponto de partida. Empresas que mais sabem usar machine learning começam com um insight único sobre o que mais importa para elas na hora de tomar uma decisão importante. Isso as orienta sobre quais dados elas devem reunir, assim como quais tecnologias devem usar. Um jeito fácil de começar é dimensionando e desenvolvendo um conhecimento que sua equipe já possui e que poderia criar mais valor para a organização.

É claro que softwares devoraram o mundo (frase cunhada pelo empresário de softwares Marc Andreessen), mas eles ainda estão com fome! Softwares precisam de uma dieta contínua de dados novos combinados com tecnologias novas para continuar agregando valor.

Você não quer ficar para trás nessa mudança em insights, máquinas e dados alternativos. Comece a buscar internamente para identificar a sua perspectiva, e os dados valiosos e alternativos que você poderia e deveria produzir. É a partir dessas etapas que você irá descobrir os insights relacionados necessários para que sua organização continue competitiva.

Consultorias robóticas

Consultores robôs (algoritmos) estão sistematicamente substituindo empregos de seus pares humanos da mesma forma que a Amazon e Netflix tiraram grande parte do market share de supermercados e cinemas. Como o trabalho de consultores corporativos normalmente é baseado em dados e comportamentos anteriores, isso favorece qualquer decisão tomada por robôs e algoritmos.

Quer saber mais sobre inteligência de dados? Acesse nossos conteúdos do Fórum Data Science.

Megan Beck e Barry Libert
Megan Beck (@themeganbeck) é cofundadora e diretora de produtos da OpenMatters, uma empresa de machine learning. Barry Libert (@barrylibert) é CEO da OpenMatters e membro sênior do SEI Center da Wharton.

Deixe um comentário

Você atualizou a sua lista de conteúdos favoritos. Ver conteúdos
aqui