O senso comum considera a tecnologia como neutra. Seu uso é que a tornaria boa ou ruim. Assim, armas de fogo teoricamente desenvolvidas para proteger uma pessoa de perigos, por exemplo, de animais selvagens ferozes, na prática, são também usadas para matar inocentes, às vezes promovendo carnificinas.
Não é muito diferente com tecnologias futurísticas, como os algoritmos de aprendizado de máquina que geram textos com linguagem fluente, com fundamento na habilidade em manipular enormes bases de dados. Esse avanço tecnológico pode mudar a forma como a ciência é feita, porém não necessariamente para melhor.
A revista Nature publicou há cerca de um ano (http://bitly.ws/qEcr) uma matéria apresentando uma nova e poderosa ferramenta de inteligência artificial, chamada de GPT-3, criada no Vale do Silício. Ela consegue produzir textos a partir de uma frase provocativa, baseada em dezenas de bilhões de textos originais existentes em livros, artigos ou sites da internet. O que inclui fazer resumos ou interpretações de textos científicos.
Quase sem limites
Trata-se de uma ferramenta tão avançada, que mesmo pessoas especializadas mostraram dificuldades em distinguir textos redigidos sobre o mesmo tema, quando produzidos por humanos ou pelo GPT-3. O programa responde praticamente qualquer pergunta (se existir resposta já publicada), efetua correções gramaticais, traduz textos entre idiomas, resolve problemas matemáticos e o suprassumo: pode até efetuar programação de computadores usando as linguagens mais usuais!
As possibilidades abertas pelo GPT-3 e programas similares é estarrecedora. Para o bem e para o mal, considerando que vivemos uma quadra em que as fakenews, mormente envolvendo ciência e política, são a face mais nefasta do nosso cotidiano. Assim, o tema passou a preocupar os cientistas. Sem uma denominação clara em português, os aplicativos de Large Language Models (LLMs) são tão recentes quanto controversos. Às vezes, eles repetem erros ou estereótipos problemáticos, que estão contidos em alguns dos milhões ou bilhões de documentos usados para seu treinamento. E os pesquisadores temem que fluxos de linguagem gerados por computador, indistinguíveis da escrita humana, possam causar desconfiança, desinformação e confusão. Além de outros vieses, como racismo, misoginia ou homofobia.
Sob escrutínio
Recentemente, a equipe da Dra. Johanna Okerlund, da Universidade de Michigan, publicou um relatório analisando o impacto dessas ferramentas sobre a Ciência (http://bitly.ws/qEe9). Em especial escrutinaram o impacto de uma ferramenta denominada “Elicit”, desenvolvida pela empresa Ought (San Francisco, CA), que possui a capacidade de responder perguntas utilizando a literatura científica. Segundo o relatório, embora os LLMs possam facilitar o entendimento de pesquisas complexas, capacitar as pessoas a extrair rapidamente insights de informações, consultar sintomas de doenças ou para gerar resumos de tópicos técnicos. Infelizmente, também podem criar vieses anticiência e aprofundar o ceticismo público em relação à Ciência, como ocorreu recentemente a respeito de vacinas, ou já há mais tempo, em relação a organismos geneticamente modificados.
O relatório aponta que os resumos produzidos pelos algoritmos podem conter erros, incluir informações desatualizadas ou remover nuances e incertezas, sem que os usuários percebam isso. Ao valer-se de LLMs para tornar compreensíveis pesquisas complexas, assume-se o risco de obter uma visão simplificada e idealizada, que pode ameaçar o profissionalismo indispensável a um cientista. Igualmente, pode exacerbar os problemas de confiança do público na ciência. Os cientistas também perceberam que diferentes indivíduos, fazendo consultas sobre o mesmo tema, portanto usando terminologia diferencias, podem receber respostas personalizadas, com gradações de diferenças entre elas.
Assim, mesmo para um cientista efetuando uma consulta, pode ocorrer acesso a informações mais antigas, desatualizadas, ou nivelar como igualmente importantes artigos de escol com outros de baixa qualidade. Até porque, é difícil reconhecer quando um LLM fornece uma informação distorcida.
Uso em editoras científicas
Um dos ramos de aplicação projetada para os LLMs está na área de grandes editoras científicas, que poderão desenvolver LLMs específicos para Ciência, com a capacidade de rastrear o texto completo de todos os seus artigos. Servirá para automatizar determinados aspectos da revisão por pares, incluindo a identificação dos melhores revisores para cada texto submetido para publicação. Os LLMs também podem ser usados para identificar resultados particularmente inovadores em manuscritos ou patentes, e talvez até mesmo para ajudar a avaliar esses resultados. E, um aspecto muito importante: os LLMs podem auxiliar pesquisadores em países que não falam inglês para adequar o estilo de seu artigo, conforme os padrões do idioma inglês para Ciência.
Mas, o grande temor dos cientistas é que pessoas desonestas poderão usar LLMs para gerar documentos falsos ou quase falsos, se acharem que isso ajudará sua carreira. Paralelamente às funcionalidades dos LLMs deverá ser desenvolvida a capacidade de arguir suspeitas sobre textos científicos desonestos, alertando revisores e editores.
Finalmente, o relatório da equipe da Dra. Okerlund alerta que, assim como em qualquer processo científico, o uso dos LLMs na Ciência, obrigatoriamente necessita ser transparente. O que significa que os desenvolvedores devem explicar quais textos foram usados e a lógica dos algoritmos envolvidos, apenas para citar alguns aspectos. Transparência será fundamental para que LLMs sejam usados principalmente para o bem, evitando o seu uso desonesto ou com o objetivo de desinformação e de confusão sobre fatos científicos