#sparse-autoencoders 2 пункта 8 мая Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research 18 июн Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research