21 июня, 2025

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

НовостиАвтор: WshopUz 21 июня, 2025 Оставить комментарий

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам…

21 июня, 2025

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Некоторые SSD Western Digital по-прежнему блокируют загрузку и установку Windows 11 24H2