«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research
Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам…