top of page
Foto do escritorLipie Souza

Tecnologia RPA versus Modelos multimodais - Como se dará essa transformação?

Atualizado: 2 de mai. de 2023

Existem diferenças significativas entre essas duas tecnologias e neste artigo eu explico como acredito que essa transformação deve ocorrer para alêm do hype.



A tecnologia do RPA, do inglês Robotic Process Automation, surgiu na década de 2000 como uma solução para automatizar tarefas repetitivas e manuais, permitindo que as empresas aprimorassem a eficiência operacional e reduzissem custos. Inicialmente era vista como uma ferramenta de automação de back-office, lidando com tarefas simples, como entrada de dados e manipulação de arquivos. As empresas começaram a testar a tecnologia em pequena escala, principalmente para avaliar seu potencial e identificar possíveis casos de uso. Com o tempo, a aceitação da RPA cresceu à medida que as empresas perceberam os benefícios tangíveis de sua aplicação, como redução de erros humanos e aumento da produtividade.


A partir de 2016-2018 essas iniciativas começaram a ganhar espaço nas corporações brasileiras, começando pelos bancos e se espalhando pelas demais organizações. E um dos grandes desafios de adoção dessa tecnologia foi a integração da RPA com sistemas e processos legados. Muitas vezes, a automação falhava devido à falta de compatibilidade entre os robôs e os sistemas existentes. Isso exigiu um esforço significativo para adaptar e atualizar as soluções de RPA, a fim de garantir uma integração bem-sucedida. E aqui está a grande limitação que dificilmente será resolvida por esta tecnologia, RPAs dependem muitas vezes de interagir com as UIs (User interfaces) dos sistemas legados para análise e manipulação de dados, isso gera overhead processual e um amontoado de “retalhos” sistêmicos. A tecnologia de RPA em última instância não permitiu repensar processos, apenas aumentar o output e eficácia, alguns destes fluxos rodando a décadas sem mudanças, muitas vezes com etapas desnecessárias ou não adequadas ao contexto atual do negócio.

RPAs na maioria das vezes "rodam" nas mesmas interfaces que as pessoas utilizam em seu dia a dia!

Modelos GPTs Multimodais Os modelos multimodais estão revolucionando a forma como os softwares são construídos e como os seres humanos interagem com eles. Esses modelos combinam diferentes modalidades de entrada e saída, como texto, voz, imagem e vídeo, para criar experiências de usuário mais ricas e imersivas. Ao contrário dos sistemas tradicionais baseados em janelas, que se concentram principalmente na interação visual através de interfaces gráficas do usuário (GUI), os modelos multimodais exploram a interação entre humanos e agentes digitais em vários níveis sensoriais, proporcionando uma abordagem mais holística e intuitiva. O modelo GPT4 por exemplo, combina a entrada de texto e imagens e permite a saída em texto e por ser significativamente melhor ao realizar tarefas de análise, além de não requerer treinamento adicional, poderá substituir rapidamente os RPAs pela sua facilidade de aplicação. Abaixo o um exemplo de como o GPT4 performa perante uma análise que envolve imagem e pensamento crítico (pense em processo de assistência técnica, por exemplo):


User: What is funny about this image? Describe it panel by panel.


GPT-4: The image shows a package for a "Lightning Cable" adapter with three panels.

Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.

Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.

Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.

The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.

Os modelos multimodais estão se tornando cada vez mais sofisticados e precisos. O GPT4 por exemplo já ultrapassa a barreira de 80% em assertividade e análises em diferentes temas como jurídicos, de análise matemática complexas e por aí vai. Análise completa aqui. Contudo, para atividades mais corriqueiras e com adição de bases de dados próprias, este nível pode ser aumentado significativamente, superando a taxa de erros de um processo de rotina executado por pessoas e RPAs. E diferente dos RPAs, gostaria de frisar, não há a necessidade de treinamento prévio, talvez um treinamento adicional que é muito mais simples, onde basicamente adicionamos um material extra de "leitura" e isto é naturalmente incorporado pelo modelo, sem necessidade de taguear os dados ou dar exemplos de "raciocínio" do conteúdo analisado. Um grande avanço.


Outra grande diferença é a facilidade de construir ferramentas no ou low-code para substituir sistemas já em em produção. Por exemplo, um sistema de conferência de notas fiscais que hoje roda com o auxílio do RPA na análise e aprovação do pagamento, poderia ser facilmente substituído por um fluxo que roda em “backstage” que recebe este documento e o aprova, marcando esse resultado diretamente na base de dados, sem necessidade de interface gráfica para tal. E ah, esses modelos também entendem como é a estrutura de dados por trás, não há a necessidade de treiná-los (talvez apenas refiná-los) a como “inscrever” estes dados.

Em breve aplicações de LLMs irão facilmente entender e gerir suas bases de dados.

A própria OpenAI já utiliza essa estratégia ao lançar os “Plugins” para o ChatGPT, onde você constrói um manifesto público da sua API e o modelo entende quais são as ações deve tomar e como consumir estes endpoints (Desculpe pelo tequiniquês).


Outro exemplo são projetos OpenSource como o LangChain ou o LlamaIndex que te ajudam a construir um aplicação LLM que combina dados das suas APIs, entendendo “magicamente” como lê-las. A limitação aqui é ao salvar/persistir dados, embora já exista uma solução de contorno, estes projetos ainda não suportam escrever dados na API, mas isto também pode ser resolvido adicionando uma aplicação de controle que, a depender de uma ação do usuário, salva este dado em sua base através de um conector, webhook, API, etc. Por fim, essa biblioteca é novíssima e tem evoluído rapidamente nos últimos meses, então em breve acredito que será disponibilizado um serviço que descobrirá como salvar automaticamente os dados de conversação em suas bases através de APIS/webhooks. Um futuro não tão distante

Com este nível de automatização, será bem menos complexo criar novas aplicações conversacionais que irão, entender e manipular seus dados, a partir de análises que irão requerer pouquíssimo treinamento. Voltando ao exemplo de conferência de notas fiscais, iremos “dizer” para o modelo onde buscar os documentos pendentes, dizer em português claro qual é a análise que será feita, “verifique se o valor está dentro do Budget X e data de vencimento menor que Y, blá blá blá, ademais procure por vestígios de fraude”, e salve através de um post na API Z. Não estamos longe disso, talvez agora só precisamos de APIs “melhor empacotadas” sejam elas OpenSource, sejam elas providas pela Azure ou Google Cloud. Contudo, com as bibliotecas já existentes isto é possível ser construído.


Estas tecnologias não só irão diminuir o custo de repensar processos, como também a própria realização será mais barata. Hoje os RPAs requerem licenças caras, custos com máquinas virtuais e manutenção de código bem detalhados. Além disso, se acoplam aos processos “como são - as is”. Os LLMs custam somente o dado tráfegado e o serviço rodando na nuvem, e permitem repensar processos em linguagem natural! Sendo assim, acredito que em breve esta será a tecnologia da vez, indo além do hype do famoso “ChatGPT”.

102 visualizações0 comentário

Posts recentes

Ver tudo

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page