Tags similar to: Wireheading

AI

Reinforcement Learning

Reward Functions

Embedded Agency

Inner Alignment

Outer Alignment

Instrumental Convergence

The Pointers Problem

Interpretability (ML & AI)

Counterfactuals