#mech-interp
- Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями Google DeepMind research
- Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
- Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research