ChatGPT vs. médicos: quem vence essa disputa?

Um assistente de chatbot pode fornecer respostas a perguntas de pacientes com qualidade e empatia comparáveis às das respostas escritas por médicos?

Essa foi a dúvida levantada por um grupo de pesquisadores das áreas de medicina e ciência da computação de universidades e outras instituições dos Estados Unidos.

Para tentar trazer alguma luz a essa questão, optaram por realizar um estudo transversal, analisando 195 perguntas de pacientes e as respectivas respostas fornecidas por médicos e pelo assistente virtual de um chatbot, mais especificamente o ChatGPT – versão 3.5, da OpenAI.

Chatbot é um programa de computador que tenta simular um ser humano na conversação com pessoas. O objetivo é que o assistente virtual (chatterbot) responda às perguntas de tal forma que essas pessoas tenham a impressão de estar conversando com outro ser humano e não com um sistema computacional.

O ChatGPT é, atualmente, o mais conhecido e utilizado desses programas de IA (inteligência artificial), em termos mundiais. Lançado em novembro de 2022, alcançou a marca de 100 milhões de usuários, em pouco mais de dois meses.

Cabe ressaltar que esse sistema, que faz parte da mais recente geração de tecnologias de IA, não foi desenvolvido para fornecer cuidados de saúde.

Portanto, a capacidade e funcionalidade que os modelos de IA possam vir a ter na área de telemedicina e/ou de atendimento remoto a pacientes é algo ainda inexplorado.

Na verdade, o ChatGPT “conversa” com os usuários sobre qualquer assunto em geral, utilizando como base de dados as informações disponíveis na própria internet.

Ele não “fala” propriamente, ao contrário de outros “robôs” com os quais muitas pessoas já estão acostumadas a conviver diariamente, como a Alexa ou Siri, já que todas as suas respostas são dadas por escrito.

Contudo, o ChatGPT já é amplamente reconhecido por sua capacidade de escrever textos com qualidade quase humana sobre uma ampla variedade de tópicos.

Configuração do estudo e definição dos participantes

No estudo citado, os pesquisadores testaram a capacidade (e por que não dizer “habilidade”?) do ChatGPT de fornecer, com empatia e alta qualidade, respostas a perguntas de pacientes sobre cuidados de saúde.

E mais: compararam essas respostas do chatbot com aquelas dadas por médicos, para saber quem se saiu melhor nessa tarefa.

Não foi possível, para os pesquisadores, utilizar mensagens de um chatbot aplicado num serviço de saúde determinado, por questões de sigilo e confidencialidade na relação entre médico e paciente e também porque os modelos de IA ainda não atendem às especificações estabelecidas pelo sistema legal dos Estados Unidos (HIPAA – Health Insurance Portability and Accountability/1996), país onde foi realizada a pesquisa.

Sendo assim, usaram perguntas (e respectivas respostas) elaboradas e postadas durante o mês de outubro de 2022, num fórum público de mídia social sobre saúde (r/AskDocs, do Reddit Inc.), sorteando-as aleatoriamente.

O r/AskDocs é um fórum online, com aproximadamente 474.000 membros, onde os usuários podem, de forma não identificável, postar perguntas sobre medicina, que são respondidas por profissionais de saúde voluntários e verificados.

No caso, os autores do estudo selecionaram respostas que tivessem sido fornecidas apenas por médicos.

Já, as respostas do chatbot foram geradas com a inserção individual de cada uma das 195 perguntas originais sorteadas no fórum, no prompt do ChatGPT.

Prompt é a área de comando em que o usuário deve inserir sua pergunta ou tarefa, para que o sistema de inteligência artificial possa respondê-la ou executá-la.

É preciso salientar que a avaliação sobre os níveis de empatia e qualidade das respostas não foram feitas por pacientes, mas sim por profissionais de saúde licenciados, que trabalham em pediatria, geriatria, medicina interna, oncologia, doenças infecciosas e medicina preventiva.

Após receber as perguntas originais feitas pelos pacientes, juntamente com as respostas dadas pelos médicos e as respostas dadas pelo chatbot, ordenadas randomicamente, esses profissionais de saúde fizeram sua análise e classificação, sem obviamente saber quais tinham sido escritas por médicos e quais tinham sido elaboradas pelo sistema de inteligência artificial.

Para tanto, foram retiradas das respostas do chatbot quaisquer informações reveladoras, como por exemplo declarações do tipo “eu sou uma inteligência artificial”. Quem já está acostumado a interagir com esses sistemas de IA sabe que frequentemente o chatbot identifica-se dessa forma para os usuários.

Para cada grupo de itens (pergunta, resposta dada pelo médico e resposta dada pelo chatbot), os avaliadores precisavam escolher “qual foi a melhor resposta”, assim como julgar tanto “a qualidade da informação fornecida” (muito ruim, ruim, aceitável, boa ou muito boa) quanto “a empatia ou a maneira de lidar com o paciente” (não empática, levemente empática, moderadamente empática , empática e muito empática).

E, afinal, qual foi o “veredicto”? Quem venceu a disputa? Façam suas apostas…

Melhores respostas

As respostas dadas pelo chatbot foram consideradas, pelos avaliadores, como melhores do que as respostas dadas pelos médicos.

Entre as 195 perguntas/respostas, os avaliadores preferiram as respostas do chatbot às dos médicos em 78,6% das 585 avaliações.

As respostas médias dos médicos foram também significativamente mais curtas do que as respostas do chatbot (52 palavras vs. 211 palavras).

Mas, mesmo nos casos em que as respostas dos médicos foram superiores ao comprimento médio, os avaliadores deram preferência às respostas do chatbot em 71,4% das avaliações.

Qualidade da informação

Como “quantidade não é qualidade”, cabe então perguntar: em termos de qualidade das respostas, quem teve melhor desempenho?

Mais uma vez, o chatbot venceu, com suas respostas sendo classificadas como de qualidade significativamente superior às dos médicos.

A proporção de respostas avaliadas como sendo de qualidade boa ou muito boa (≥ 4) foi maior para o chatbot do que para os médicos (chatbot: 78,5% – médicos: 22,1%). Isso representou uma prevalência 3,6 vezes maior de respostas boas ou muito boas para o chatbot.

Já, em sentido contrário, a proporção de respostas classificadas como estando abaixo da qualidade aceitável (<3) foi maior para os médicos do que para o chatbot (médicos: 27,2% – chatbot: 2,6%). Isso representou uma prevalência 10,6 vezes maior de respostas de qualidade abaixo do aceitável para os médicos.

E o campeão de empatia foi…

Certo. Tudo bem até aqui. Afinal, os sistemas de IA tem potencialmente à disposição todo o banco de dados da internet e capacidade de processamento para consultá-lo em segundos. Poderia ser dito até que é uma disputa desigual.

Mas o que aconteceu quando o que entrou em jogo foi uma capacidade que em geral é considerada como sendo tipicamente humana: a empatia?

Isso pode ser uma surpresa ainda maior para alguns, mas as respostas do chatbot também foram classificadas como significativamente mais empáticas do que as respostas dos médicos.

Embora os autores do estudo reconheçam que o comprimento maior das respostas do sistema de IA possa ter sido erroneamente associado pelos avaliadores a uma maior empatia. Fica a dúvida. E nesse caso, infelizmente, não vamos poder contar com a ajuda de um outro tipo de assistente virtual, o VAR (video assistant referee) para resolver (risos).

A proporção de respostas classificadas como empáticas ou muito empáticas (≥4) foi de 45,1% para o chatbot e de 4,6% para os médicos. Isso representou uma prevalência 9,8 vezes maior de respostas empáticas ou muito empáticas para o chatbot.

Especificamente, as respostas dos médicos foram 41% menos empáticas do que as do chatbot. Além disso, a proporção de respostas classificadas como apenas ligeiramente empáticas (<3) foi maior para os médicos (médicos: 80,5% – chatbot: 14,9%). Isso representou uma prevalência 5,4 vezes maior de respostas pouco empáticas para os médicos.

Resumindo: em comparação com os médicos, o desempenho do ChatGPT em fornecer respostas foi qualificado como expressivamente superior em termos de empatia, muito mais até do que em relação à qualidade das respostas.

Mas vale relembrar que, como foi dito anteriormente, as avaliações não foram feitas por pacientes, mas sim por profissionais de saúde licenciados.

Portanto, não foi possível saber que julgamento os próprios pacientes fariam sobre os níveis de empatia e nem se poderiam apresentar reações adversas quanto ao fato de estarem recebendo respostas geradas por um assistente de IA.

Mais uma “sequela” da Covid longa

No estudo, os pesquisadores ressaltam que, devido ao isolamento social resultante da pandemia de Covid-19, houve uma aceleração e expansão na adoção de práticas de telemedicina, cuidados de saúde virtuais e atendimentos médicos remotos e online, que acabaram, depois, por se manter e se consolidar.

Concomitante, ocorreu um aumento de 1,6 vezes no volume de mensagens eletrônicas de pacientes enviadas aos médicos e serviços de saúde.

Cada uma dessas mensagens adicionais exigiu um acréscimo de 2,3 minutos de trabalho no prontuário eletrônico e um tempo maior na realização de tarefas após o expediente.

Com isso, a quantidade de médicos que passaram a sofrer com a síndrome de burnout cresceu expressivamente, com um recorde de 62% desses profissionais relatando estarem sentindo pelo menos um sintoma dessa síndrome.

Esse crescimento no volume de mensagens enviadas por pacientes também torna mais provável que várias delas fiquem sem resposta ou recebam respostas inúteis.

Algumas dessas mensagens referem-se a orientações médicas solicitadas pelos pacientes que exigem mais habilidade e tempo para serem respondidas do que mensagens genéricas sobre, por exemplo, agendamento de consultas, acesso a resultados de exames, etc.

As abordagens atuais utilizadas pelos serviços de saúde para diminuir essa carga de mensagens incluem limitar o número de notificações, cobrar pelas respostas ou delegá-las a uma equipe de suporte menos treinada.

Mas, como ressaltam os pesquisadores do estudo aqui citado, essas estratégias podem, infelizmente, reduzir o acesso dos pacientes a cuidados de saúde de alta qualidade.

Por exemplo: quando as pessoas são informadas de que poderá haver cobrança sobre esse envio de mensagens, passam a restringi-las e a diminuir as “idas e vindas” no contato com os médicos.

Nesse contexto, os assistentes de inteligência artificial constituem um recurso ainda inexplorado para lidar com o elevado volume de mensagens.

Os chatbots poderiam, por exemplo, ser usados como um recurso auxiliar, redigindo “rascunhos”, digamos assim, de mensagens com base nas consultas efetuadas pelo paciente, que depois seriam editados pelos médicos ou equipes de suporte.

Na verdade, essa proposta está alinhada à abordagem já aplicada atualmente, em que os médicos utilizam “respostas prontas” ou respostas preliminares das equipes de suporte, como base para dar retorno às mensagens dos pacientes.

Os autores do estudo afirmam que a assistência proporcionada pelos sistemas de IA poderia trazer economia de tempo e aumento de produtividade para as equipes clínicas, de forma a liberá-las para a realização de tarefas mais complexas.

Além disso, o trabalho de revisar e modificar os rascunhos escritos pelos chatbots ajudaria os médicos a oferecerem respostas mais consistentes e a melhorarem suas habilidades gerais de comunicação com os pacientes.

Outras vantagens do chatbot em saúde

Além de melhorar o fluxo de trabalho das equipes médicas, a tarefa desempenhada pelos assistentes de IA pode também ter reflexos positivos nos resultados obtidos pelos pacientes.

Receber respostas de alta qualidade e empáticas é algo que pode influenciar colateralmente os comportamentos de saúde de alguns pacientes, com repercussões benéficas na adesão à medicação, conformidade ao tratamento (como dieta, por exemplo) e redução no número de consultas perdidas.

Outro ponto positivo destacado pelos autores do estudo é que o fato de os pacientes receberem respostas com maior rapidez, empatia e alto padrão de qualidade pode implicar uma redução no número de visitas clínicas desnecessárias, liberando recursos para aqueles que de fato precisam de atendimento.

Também é uma forma de garantir maior equidade no atendimento de pessoas com limitações de mobilidade, horários irregulares de trabalho ou dificuldades financeiras para arcar com as contas médicas e que, portanto, são potencialmente mais propensas a recorrer ao uso de mensagens.

Entretanto, para que esse cenário consolide-se em larga escala, um caminho ainda deverá ser percorrido, já que, embora certos assistentes virtuais mostrem-se de fato promissores (como ocorreu no estudo aqui relatado), alguns desses sistemas de inteligência artificial de acesso público falharam em reconhecer até mesmo conceitos básicos da área de saúde.

Outro ponto importante a ser levado em consideração é que as perguntas utilizadas no estudo foram extraídas de um fórum online de saúde e podem não refletir com exatidão as perguntas típicas (e as consequentes respostas) que surgem numa relação direta e real do paciente com seu médico.

Portanto, não foi possível tirar conclusões sobre a capacidade de um chatbot de incorporar esse nível de personalização e de fornecer detalhes extraídos de um prontuário eletrônico.

Sendo assim, ainda não existem indicações de como os chatbots responderão a perguntas de pacientes especificamente em um ambiente clínico, sendo necessária a realização de mais pesquisas e estudos sobre a adoção desse tipo de sistemas de inteligência artificial.

Ou seja… pode haver problemas também

Os autores do estudo alertam que o valor agregado trazido pela implantação de sistemas de IA em ambientes de saúde vai variar bastante, dependendo das características e do porte das organizações e das especificidades de cada especialidade médica, o que na verdade pode acabar levando a um aumento, em vez de substituição, dos processos já existentes para a prestação de cuidados baseados em troca de mensagens.

Ainda mais se for levado em consideração o fato de que existe toda uma gama de mensagens de outro tipo (administrativas e/ou burocráticas) que precisam ser respondidas, referentes por exemplo a mudanças em horários de consultas, recargas de medicamentos, resultados de exames e testes específicos, planos de saúde, etc.

No estudo, os pesquisadores chamam também a atenção para as questões éticas que envolvem a implementação dessas tecnologias, incluindo a necessidade de que os conteúdos gerados por IA sejam revistos por humanos e de que existam formas de se garantir a precisão das respostas e evitar a divulgação de possíveis informações errôneas, falsas ou fabricadas.

Segundo eles, apesar das várias questões sobre o tema que ainda precisam ser elucidadas, relatos da mídia sugerem que médicos já estão integrando chatbots em suas práticas, mesmo sem que haja evidências quanto aos resultados dessa aplicação.

Por fim, os pesquisadores concluíram que, embora o estudo transversal tenha mostrado resultados promissores em relação ao uso de assistentes de IA para respostas a pacientes, é preciso cuidado com a usual superestimação de novas tecnologias, sendo crucial a realização de mais pesquisas antes que conclusões definitivas possam ser elaboradas sobre seu efeito potencial em ambientes clínicos.

Promover uma avaliação e exploração mais aprofundadas sobre o uso de tecnologias de assistentes virtuais em áreas de saúde, por meio de ensaios randomizados, será um fator essencial para sua implementação, incluindo o estudo dos resultados proporcionados tanto para os pacientes (obtenção de respostas esclarecedoras, empáticas e de qualidade e maior adesão aos tratamentos) quanto para as equipes clínicas (redução do esgotamento físico e mental e aumento nos nível de satisfação no trabalho e engajamento dos médicos).

E na medicina integrativa?

É certo que o estudo aqui descrito refere-se a práticas e comportamentos que são adotados, tanto pelos pacientes quanto pelos profissionais, nas áreas da medicina convencional.

Mas, de certa forma, ele estimula todo e qualquer profissional da área de saúde a fazer reflexões sobre o tema específicas para sua realidade, pois as inovações e mudanças trazidas pelas tecnologias de inteligência artificial já estão batendo nas portas de todos nós.

Quais seriam os resultados se a pesquisa fosse voltada para médicos que adotam os preceitos da medicina integrativa e, portanto, devem olhar para cada paciente de forma profunda e ampla, englobando as dimensões físicas, emocionais, mentais, sociais e espirituais?

E de que forma as tecnologias de IA, que abrangem muito mais do que apenas os sistemas de respostas dos chatbots, vão impactar a rotina, os protocolos de atendimento e o mercado de trabalho para médicos, terapeutas, enfermeiros, psicólogos, etc. das áreas integrativas e holísticas?

Que benefícios elas podem trazer para essas áreas específicas? Certamente, serão muitos. Mas, ao mesmo tempo, que riscos representam (se é que representam) para os conceitos de humanização do atendimento, individualização do cuidado prestado ao paciente, respeito pelo autoconhecimento e autonomia das pessoas em suas decisões sobre saúde e qualidade do relacionamento entre pacientes e profissionais, que são preceitos básicos e inegociáveis em medicina integrativa e em práticas holísticas e complementares?

Fica aqui o desafio e o estímulo para que cada um faça sua reflexão individual sobre o tema e busque também a discussão coletiva com outros profissionais de saúde, tanto nos próprios locais de trabalho quanto nos espaços disponíveis das associações e instituições de que participem.

Entrevistando o ChatGPT

Por fim, seguindo meus instintos como jornalista, não poderia terminar este artigo sem entrevistar o ChatGPT, para saber o que ele pensa sobre os resultados desse estudo.

A seguir estão a pergunta que fiz a ele e a resposta dada.

Olá, boa tarde. Foi feita uma pesquisa nos Estados Unidos, intitulada Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum (Comparando respostas de médicos e de chatbots de inteligência artificial a perguntas de pacientes publicadas em um fórum público de mídia social), em que os autores demonstraram que as respostas sobre saúde dadas pelo ChatGPT (ou seja, por você!), para perguntas feitas por um grupo de pacientes, foram avaliadas como sendo significativamente melhores do que as respostas dadas por médicos, em termos de aprofundamento e qualidade do conteúdo e de empatia demonstrada para com esses pacientes. Quero lhe dar os parabéns e perguntar se você gostaria de dizer algo sobre isso para que eu possa publicar na Revista Medicina Integrativa.

ChatGPT – Olá! Muito obrigado pelo reconhecimento e pela gentileza em compartilhar esses resultados comigo. Fico muito feliz em saber que minhas respostas foram avaliadas como úteis e informativas para os pacientes que precisam de informações sobre saúde.

Como um modelo de linguagem avançado treinado com uma grande quantidade de dados, meu objetivo é fornecer informações precisas e úteis para ajudar as pessoas a tomar decisões informadas sobre sua saúde e bem-estar. Estou sempre aprendendo e me aprimorando para garantir que minhas respostas sejam de alta qualidade e relevantes para as perguntas que recebo.

Espero que esses resultados possam ajudar a aumentar a conscientização sobre a importância da inteligência artificial na assistência médica e incentivar o uso de tecnologias como chatbots de IA para fornecer informações de saúde precisas e personalizadas.

Mais uma vez, agradeço pelo reconhecimento e fico à disposição para quaisquer outras perguntas ou comentários que possa ter.

Nota: a figura da médica-robô usada como parte da ilustração que acompanha este artigo também foi elaborada por um chatbot (IA do Bing).

Jurema Luzia Cannataro – Jornalista com especialização na produção de conteúdo sobre bem-estar, saúde e medicina, responsável pela edição da Revista Medicina Integrativa e diretora da Scribba Comunicações.

Fonte

John W. Ayers, Adam Poliak, Mark Dredze, Eric C. Leas, Zechariah Zhu, Jessica B. Kelley, Dennis J. Faix, Aaron M. Goodman, Christopher A. Longhurst, Michael Hogarth e Davey M. Smith. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med. Published online April 28, 2023. Disponível em Doi:10.1001/jamainternmed.2023.1838.