10 min de leitura

IA em 2024: modelos mais poderosos, robótica realidade e elefantes aprendendo a dançar

O que devemos ganhar em nossa "caixa de ferramentas de IA" para 2024? Quais ingredientes teremos para criar novas funcionalidades, produtos, serviços e negócios? 2023 deixou pistas. Confira os prováveis movimentos que vêm por aí

Rodrigo Helcer
13 de junho de 2024
IA em 2024: modelos mais poderosos, robótica realidade e elefantes aprendendo a dançar
Este conteúdo pertence à editoria Tecnologia, IA e dados Ver mais conteúdos
Link copiado para a área de transferência!

Ano novo, horizonte novo. O ano de 2024 começou marcado pela CES Las Vegas, principal evento de tecnologia B2C do mundo, que chegou com tudo numa onda de novidades em IA para o consumidor final. De assistentes virtuais de bolso, como o R1 DA Rabbit, passando por tradutores simultâneos, como o Timekettle WT2 Edge, até robôs que cuidam sozinhos de jardins e piscinas e já são ofertados por uma série de marcas. Todos esses equipamentos têm um ingrediente em comum e especial: a inteligência artificial (IA). E tudo isso foi só um gostinho do que podemos esperar para 2024.

O ano de 2023 foi o primeiro de uma nova geração de IA, a IA generativa (GenIA). Foi um ano marcado por descobertas, estudos, labs e pilotos utilizando esse novo ingrediente. Levando em conta que um ciclo médio de softwares relevantes leva em torno de 9 a 11 meses para sair do forno e ser lançado, enquanto hardwares têm um ciclo ainda maior, de 1 a 2 anos, será em 2024 que devemos conhecer a primeira fornada de softwares e hardwares de destaque que usufruirão das capacidades fantásticas da nova onda de GenIA , em diversos setores e para diversas “dores” de negócio e do consumidor final.

Enquanto isso, as bases tecnológicas de GenIA seguem voando e é sobre essas bases que eu gostaria de trazer uma perspectiva neste artigo. O que devemos ganhar em nossa “caixa de ferramentas de IA” para 2024? Quais ingredientes teremos para criar novas funcionalidades, produtos, serviços e negócios? 2023 deixou pistas e agora eu trago aqui os prováveis movimentos que enxergo.

Dos LLMs para os LMMs

O ChatGPT foi o principal exemplo de AI agent (agente de inteligência artificial, em livre tradução) que o mundo conheceu e interagiu. Foi criado baseado na Large Language Model (LLM), tecnologia descoberta pelo Google e aprimorada em produto real pela OpenAI, composto por uma rede neural e treinado com grandes quantidades de texto e machine learning.

Nos primeiros meses, conversamos, perguntamos e desafiamos os limites de um agente virtual dotado de IA que interagia apenas por textos. Mas, ainda em 2023, o jogo mudou. Os LLMs avançaram e trouxeram a possibilidade de interagirmos por imagens e áudio. Seja para usarmos uma imagem ou áudio como parte da pergunta (input) ou a resposta sendo por meio deles (output).

Essa salada de formatos foi nomeada como “multimodalidade” pelo mercado, que rebatizou a sigla “LLM” para “LMM”, que significa Large Multimodal Models. Ainda estamos tateando as aplicações práticas de produtos baseados em LMM, e muitas vamos conhecer ao longo deste ano e no próximo parágrafo deste artigo.

Multi-AI Agents

Já imaginou se a nossa interação com um AI agent ganhasse mais convidados? No lugar de um único agente, diversos agentes, multiagentes ou mesmo um AI agent fazendo a intermediação e arbitrando sobre nossa interação com um time de AI agents?

Isso não é coisa da minha cabeça. Uma série de experimentos já estão sendo conduzidos nessa direção, como o ChatDev e o AutoGen, proposto pela Microsoft. Essas são abordagens inovadoras, baseadas em LMMs, que visam revolucionar o campo de desenvolvimento de software, analytics e produção de conteúdo. No ChatDev vemos um time de modelos interagindo entre si, cada qual com seu papel – CEO, CTO, designer, programador, tester e Documentador – para produzir desde peças de comunicação até games operacionais e jogáveis.

chatdevLegenda: Times compostos por Multi-agents/ Crédito: https://chatdev.toscl.com/

Apertem os cintos. Muito provavelmente, veremos ainda neste ano aplicações com um time de agentes similar a esses para melhorar o pós-venda, o marketing, o comercial e outros processos de uma organização. E o mais legal: ainda está em tempo de você sentar com seu time de produto ou de P&D e pensar como poderiam aproveitar essa nova tecnologia para o seu modelo de negócio.

Explosão de possibilidades em criação de vídeos

Em 2023, conhecemos primeiro o text-to-image, em que você digita um texto e a IA cria uma imagem. O player pioneiro e de qualidade foi o Midjourney. Depois, a Adobe trouxe funcionalidades fantásticas para seu Photoshop, economizando horas de designers e ilustradores. Em paralelo, nascia uma outra companhia, a Runway, já correndo pelas beiradas para dar um passo além e oferecer o text-to-video, em que você digita um texto e a IA cria um vídeo, e também o image-to-video, em que você envia uma imagem e a IA a transforma em vídeo.

A Runway começou tímida, com vídeos curtos e resultados medianos. Evoluíu para notas melhores e, na virada do ano, a qualidade e duração dos vídeos já começam a surpreender. Um exemplo interessante são os pássaros criados pela artista e tiktoker Kelly Boesch.

UntitledLegenda: Vídeos de raças imaginárias de pássaros artificialmente criados por IA/ Crédito: Kelly Boesch AI Art

Mais recentemente, a OpenAI mostrou suas cartas com o lançamento da SORA, seu motor de text-to-video. E impressionou o mercado com sua qualidade na construção de cenas com humanos, cenas históricas e recorde de duração de seus vídeos (que chegam a 1 minuto de duração, frente ao limite de 16 segundos da Runway).

pasted image 0Legenda: Cena de vídeo criado pelo SORA, da OpenAI/ Crédito: Divulgação/OpenAI

Deepfakes

Outro exemplo que vem ganhando destaque na imprensa, especialmente em ano eleitoral no Brasil e nos EUA, são os deepfakes (vídeos ou áudios altamente realistas, gerados por técnicas de IA e aprendizado de máquina). Despertam atenção devido seu pontecial para disseminar desinformação e criar conteúdo falso.

Ainda sem uma legislação adequada para proibi-los, estamos a ponto de deepfakes mostrar para o mundo até onde a IA pode chegar na criação de vídeos sintéticos e revelar uma série de possibilidades e aplicações para além da política, no mundo de negócios.

Vamos ver, desde noticiários com apresentadores virtuais (que dificilmente distinguiremos se são pessoas reais ou não) a aplicações com IA que poderão facilitar a forma como as companhias compartilham conhecimento, educação e marketing para múltiplos públicos até uma explosão criativa de produção audiovisual com recursos de IA.

Estamos muito próximos de poder transformar assobios em instrumentos musicais, sem precisar ter feito uma única aula de teclado. Ou de podermos cantar com nossa própria voz em tons perfeitos músicas na voz do nosso músico preferido.

O início de uma era de ouro na robótica

Empresas como Boston Dynamics (com seus robôs “Atlas” e “Spot”) e a Tesla (com seu robô “Optimus”) vêm chamando a atenção nos últimos dois anos. Acontece que a área de visão computacional, muito importante para a robótica, deu um salto de precisão, facilidade e custo no ano passado. Tarefas como o reconhecimento de objetos – saber dizer qual objeto é ou diferenciar objetos entre si – estão muito mais sofisticadas, baratas para treinar e abertas para qualquer empresa acessar.

O mesmo salto se deu em relação a recursos de visão espacial e treinamento de IA com uso de dados sintéticos que simulam movimentos, cenas e objetos da vida real e muitos outros recursos.

Devemos esperar uma explosão de lançamentos na indústria de B2B e B2C Intelligent Devices. Só em janeiro deste ano, já tivemos Microsoft e OpenAI anunciando que investirão US$100 milhões em startups de robôs humanoides na Figure AI. Na NRF (National Retail Federation’s “Big Show”), principal feira internacional do varejo, uma série de robôs já foram demonstrados para melhorar a gestão de gôndolas, o apoio na logística de armazéns e para interagir com o consumidor de lojas em diferentes tipos de serviços.

Se fosse fazer uma aposta, eu diria que o próximo grande choque de transformação de IA, depois da que tivemos na virada de 2022 para 2023 com o GPT, será em robótica. E ela está muito próxima de acontecer.

Novas técnicas e modelos

Uma das principais críticas e falhas dos LLMs no ano passado foram as tais “alucinações”, respostas que estes modelos de linguagem entregam com total segurança e certeza, mas que não condizem com a realidade. Erros factuais ou mesmo erros de cálculo. Cientes disso, uma nova arena de players está deslanchando rapidamente para atacar esses pontos com melhorias e trazendo segurança na criação.

São novos players com foco na oferta de middleware para orquestração, observação, auditoria e qualidade dos modelos. Para citar alguns nomes, temos desde a Scale AI, que colaborou com a OpenAI no treinamento dos seus modelos, o Snowflake, a Databricks e até outras menos conhecidas, como a Humanloop, LlamaIndex, Braintrust e AgentOps.

Além desse reforço em middleware, que deixará os modelos mais estáveis, seguros e controláveis, podemos esperar em 2024 uma avalanche de open source (modelos abertos, em livre tradução), que finalmente poderão competir com as alternativas fechadas e pagas da OpenAI e da Anthropic. Modelos como Llama (Meta) e Mistral AI já deram os primeiros indícios desse potencial em 2023 e há fortes especulações no meio acadêmico de que, neste ano, suas novas versões poderão virar o jogo e ultrapassar, em qualidade, a empresa de Sam Altman.

A vez dos elefantes dançarem

Na gestão de big techs uma expressão recorrente em discussões de estratégia em 2023 foi: “como podemos ensinar elefantes a dançar?”. Ou seja: como mudar, com mais velocidade, o curso de grandes corporações para competir com empresas muito mais ágeis, enxutas e com menos a perder?

Acontece que, no ano passado, vimos uma série de evidências de “elefantes aprendendo a dançar”. Boa parte da inovação em produtos utilizando LLMs veio de empresas como Microsoft, NVIDIA e Adobe. Segundo Bill Gurley, referência entre os venture capitalists americanos, “estamos num momento sem precedentes, em que os maiores crescimentos estão vindo das maiores empresas e não o contrário”.

Brad Gestner, outra voz de peso em investimentos no Vale do Silício, apontou em seu podcast o fato interessante de que “apesar da teoria ensinada em Harvard de que as vantagens competitivas em grandes companhias decrescem com o tempo, com estas novas IAs, estamos vendo o fenômeno oposto: o crescimento das vantagens competitivas com o tempo entre os elefantes”. Isso está acontecendo pelo custo na compra e no aluguel de chips para treinamento dos LLMs, o que é possível só em negócios que gerem pilhas de dinheiro em caixa.

Além disso, essas grandes companhias já têm um poder enorme de distribuição de software no mercado, além de ecossistemas fortes para customização dessas plataformas via parceiros de serviço. Esses três pontos – custo para criação de modelos, GTM eficiente e centralidade no ecossistema – vão criar um ambiente de desafios neste ano para startups se arriscarem a competir nestes mesmos mercados.

O lado cheio do copo para startups

Desenvolver software está cada vez mais barato e rápido graças aos co-pilotos de IA. Conversando com programadores experientes, escuto ganhos de 30% a 500% em produtividade com o apoio da inteligência artificial. Somado a isso, uma série de empresas vem oferecendo plataformas no-code ou low-code para a criação de produtos que, muitas vezes, são plataformas que não exigem conhecimento de programação para criar apps, permitindo um desenvolvimento muito mais fácil para profissionais que venham de áreas de negócios e não da engenharia de software.

Esses dois aceleradores, a IA somada ao no-code ou low-code, acredito que traga para o jogo mais empreendedores focados em revolucionar grandes dores e com habilidades para combinar o “lego” de novas tecnologias disponíveis. Profissionais focados em mudar processos de alto valor para grandes companhias e grupos de consumidores

Devemos ver também em 2024 uma nova onda de SaaS (software como serviço) verticais nessa linha. Com ideias brilhantes e soluções diferenciadas que não partem da tecnologia para o problema, mas partem do problema para o novo toolset de AI.

Em outro caminho, dado que o “mais fácil e barato” tende a comoditizar a construção de softwares, vemos também uma segunda onda de novos empreendedores, focada em preço e combate. Como exemplifica Chamath Palihapitiya: o novo venture builder do cofundador do Facebook e investidor. Intitulado de “8090”, promete criar uma série de novos players em SaaS, entregando 80% das funcionalidades (o famoso “good enough”), com base em pesquisas bem feitas com consumidores sobre o que realmente é essencial ter, por apenas 10% do preço. Esmagando, assim, o preço de grandes players sem diferenciais claros.

2024 será um ano de muitas oportunidades e espaço para todos os portes de empresas. Das grandes às pequenas. Mas, em especial, para aquelas que se aprofundarem nesse poderoso toolset de IA criado em 2023 e souberem transformá-lo em valor para seus negócios e categorias. Será uma corrida entre as enterprises, com seu poderio de caixa e go-to-market já conquistado, versus novos players com produtos capazes de quebrar categorias. Enquanto isso, a IA seguirá nos surpreendendo, cada vez em janelas mais curtas.

Rodrigo Helcer
Rodrigo Helcer é cofundador da STILINGUE by Blip, empresa brasileira que desde 2014 empreende na frente de inteligência artificial aplicada ao monitoramento de redes sociais. Comprada em 2022 pela Blip, Rodrigo segue como acionista e advisor na empresa. Formado em Administração pela FEA-USP, o executivo atua no conselho consultivo e liderança de comitês de inteligência artificial. https://www.linkedin.com/in/rodrigohelcer/.

Deixe um comentário

Você atualizou a sua lista de conteúdos favoritos. Ver conteúdos
aqui