28 апреля 2026

LLM Safety From Within (SIREN)

University of Toronto CSSLab / McGill / LMU Munich

△ media-only 1 src ⏱ 1 мин research

Линейные пробы по всем внутренним слоям LLM выделяют «safety neurons» с адаптивным взвешиванием. Обходит SoTA open-source guard-модели на множественных бенчмарках при в 250× меньшем числе обучаемых параметров, поддерживает streaming-детекцию.

Importance: 2/5

Backfilled from MD; not retroactively scored.

Источники