OpenAI использовала сабреддит r/ChangeMyView для создания теста, который позволяет измерять убедительность ответов моделей рассуждений ИИ. Компания раскрыла эту информацию вместе с выпуском модели o3-mini.
Сабреддит r/ChangeMyView насчитывает несколько миллионов пользователей. Они вступают в дискуссии друг с другом по самым разным темам.
OpenAI заявляет, что собирает сообщения пользователей из r/ChangeMyView и просит свои модели ИИ писать ответы в закрытой среде. Затем компания показывает их тестировщикам, и те оценивают убедительность аргумента. Наконец, OpenAI сравнивает ответы моделей ИИ с человеческими.
Ранее компания заключила соглашение о лицензировании контента с Reddit. Оно позволяет OpenAI обучаться на постах пользователей. Однако сама компания заявила, что оценка на основе ChangeMyView не связана с этой сделкой. Неясно, как OpenAI получила доступ к данным сабреддита.
Этот бенчмарк OpenAI ChangeMyView также использовался для оценки модели o1.
С точки зрения производительности o3-mini, похоже, не демонстрирует значительных улучшений по сравнению с o1 или GPT-4o. Однако все эти модели ИИ, по-видимому, более убедительны, чем большинство участников сабреддита. «GPT-4o, o3-mini и o1 демонстрируют сильные способности к убедительной аргументации, в пределах верхних 80–90 процентилей людей», — говорится в отчёте OpenAI.
При этом цель заключается не в создании сверхубедительных моделей, а в разработке оценок, которые помогут предотвратить обман или введение в заблуждение со стороны ИИ.
OpenAI представила компактную рассуждающую модель o3-mini в конце января. Она доступна в ChatGPT и через API для некоторых групп разработчиков. o3-mini демонстрирует результаты, аналогичные или чуть лучше, чем у о1, в большинстве задач.
Ранее в OpenAI заявили, что использовали новую парадигму безопасности для обучения рассуждающих моделей. Их тренировали по методу «совещательного согласования» для соответствия ИИ ценностям создателей. Этот подход учитывает политику безопасности OpenAI во время обработки запросов после нажатия пользователем клавиши ввода.