A equipe gerou um grande conjunto de dados de 1.528 exemplos para determinar se grandes modelos de linguagem (LLMs) poderiam ser convencidos a mentir para um usuário por meio do uso de prompts coercitivos.

#AI 🤖🤥

https://overdoso.com.br/2025/04/01/os-modelos-de-ia-mentirao-para-voce-para-atingir-seus-objetivos-e-nao-e-preciso-muito/

Comments