#training-dynamics 2 пункта 9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research 26 июн Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях research