#chain-of-thought
- OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
- Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов research
- Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research