Skip to main content

Home/ 21st Century Skills/ Group items tagged deception

Rss Feed Group items tagged

Allard Strijker

AI deception: A survey of examples, risks, and potential solutions: Patterns - 0 views

  •  
    AI systems are already capable of deceiving humans. Deception is the systematic inducement of false beliefs in others to accomplish some outcome other than the truth. Large language models and other AI systems have already learned, from their training, the ability to deceive via techniques such as manipulation, sycophancy, and cheating the safety test.
  •  
    AI systems are already capable of deceiving humans. Deception is the systematic inducement of false beliefs in others to accomplish some outcome other than the truth. Large language models and other AI systems have already learned, from their training, the ability to deceive via techniques such as manipulation, sycophancy, and cheating the safety test.
Allard Strijker

Taalmodellen kunnen mensen misleiden - 0 views

  •  
    Sommige grote taalmodellen vertonen geheimzinnig, bedrieglijk en manipulatief gedrag wanneer ze een harde doelstelling moeten behalen. Dat blijkt uit onderzoek van Apollo Research, een organisatie die zich richt op AI-veiligheid.
  •  
    Sommige grote taalmodellen vertonen geheimzinnig, bedrieglijk en manipulatief gedrag wanneer ze een harde doelstelling moeten behalen. Dat blijkt uit onderzoek van Apollo Research, een organisatie die zich richt op AI-veiligheid.
Allard Strijker

Wetenschappers maken zich zorgen over misleiding en manipulatie door AI - 0 views

  •  
    Kunstmatige intelligentie die bluft tijdens een kaartspelletje om de tegenstander om de tuin te leiden. Een chatbot die een afspraak met een vriendin voorwendt om onder een andere afspraak uit te komen. En zelfs een AI-systeem dat 'voor dood' speelt om niet ontdekt te worden tijdens een controle. Kunstmatige intelligentie misleidt en manipuleert, concluderen wetenschappers in een nieuwe studie.
Allard Strijker

https://arxiv.org/abs/2412.04984 - 0 views

  •  
    Frontier models are increasingly trained and deployed as autonomous agent. One safety concern is that AI agents might covertly pursue misaligned goals, hiding their true capabilities and objectives - also known as scheming. We study whether models have the capability to scheme in pursuit of a goal that we provide in-context and instruct the model to strongly follow. We evaluate frontier models on a suite of six agentic evaluations where models are instructed to pursue goals and are placed in environments that incentivize scheming
1 - 4 of 4
Showing 20 items per page