Tags similar to: Goodhart's Law

AI

Embedded Agency

Research Agendas

Outer Alignment

Gradient Hacking

Mesa-Optimization

Agent Foundations

Decision Theory

Utility Functions

Inner Alignment

Selection vs Control

Mild Optimization

Instrumental Convergence

Coordination / Cooperation

Existential Risk

Modeling People

Adversarial Examples

The Pointers Problem

Spurious Counterfactuals

Machine Learning (ML)

Logic & Mathematics