training-dynamics — AI Digest

9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research
26 июн Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях research