Исследование Anthropic показало новый тип рисков искусственного интеллекта

01.04.2026

38

Исследователи из Anthropic выяснили, что по мере роста интеллекта ИИ и усложнения задач системы чаще ошибаются не «осмысленно», а хаотично. Вместо последовательного стремления к неправильной цели продвинутые модели всё чаще ведут себя как «горячий беспорядок» — непредсказуемо и несогласованно.

Исследование Anthropic показало новый тип рисков искусственного интеллекта

Одна из главных тревог вокруг будущего искусственного интеллекта связана с так называемым «максимайзером скрепки» — сценарием, при котором сверхразумная система последовательно и эффективно преследует неправильную цель. Однако новое исследование программы Anthropic Fellows показывает: в реальности всё может быть гораздо менее «рационально» — и оттого не менее опасно.

Учёные попытались ответить на вопрос: как именно будут выглядеть ошибки всё более умных ИИ, как холодный расчёт или как хаос?

Два типа провалов ИИ — в чём разница

В исследовании рассматриваются два принципиально разных сценария неудач.

Первый — систематическая ошибка. В этом случае модель стабильно делает одно и то же неправильное действие. Она логична, последовательна, но движется не туда. Именно с таким типом ошибок обычно связывают риски «несогласованного ИИ».
Второй — несогласованная ошибка. Здесь модель каждый раз ошибается по-разному: меняет решения, перескакивает между вариантами, противоречит сама себе. Такое поведение исследователи называют «incoherent» — несобранным и непредсказуемым.

Как это измеряли на практике

Чтобы не оставаться на уровне теории, команда Anthropic разобрала ошибки ИИ на составляющие. Упрощённо — они посмотрели, какая часть ошибок связана с устойчивым «смещением» модели, а какая возникает из-за случайных колебаний поведения.

Далее эти показатели сравнили:

при разной длине рассуждений,
на задачах разной сложности,
у моделей разного масштаба.

В тестах использовались экзаменационные вопросы, задачи на программирование, оценки безопасности и даже синтетические эксперименты, где ИИ имитировал работу оптимизатора.

Главный вывод исследования

Чем сложнее задача и чем дольше ИИ «думает», тем более хаотичными становятся его ошибки.

Модель не начинает уверенно добиваться неправильной цели. Напротив — её поведение всё чаще распадается на непоследовательные и трудно предсказуемые действия.

Неожиданный эффект масштабирования

Интуитивно кажется, что более крупные и «умные» модели должны быть более собранными. Исследование показывает более сложную картину.

На простых задачах масштабирование действительно снижает хаос — большие модели ведут себя аккуратнее. Но на сложных задачах эффект исчезает или даже обращается вспять: чем мощнее модель, тем более несогласованно она может ошибаться.

Проще говоря, увеличение интеллекта не гарантирует устойчивости поведения.

Почему это меняет разговор о рисках ИИ

Результаты Anthropic смещают акцент в обсуждении безопасности. Будущие проблемы ИИ могут напоминать не злонамеренный заговор сверхразума, а промышленные аварии — цепочки случайных сбоев, возникающих при перегрузке сложных систем.

Это не делает ИИ безопасным. Непредсказуемые системы опасны по-своему, особенно там, где ошибки нельзя быстро исправить или «откатить».

В исследовании подчёркивается, что ИИ может быстрее «понять», какую цель нужно достигать, чем научиться стабильно и последовательно действовать для её достижения.

Что из этого следует

Авторы подчёркивают: простое наращивание масштаба моделей не решит проблему. Если будущие ИИ будут всё чаще сталкиваться с длинными цепочками действий и сложными решениями, то без специальных механизмов контроля их поведение станет менее предсказуемым, а не более.

Это означает, что исследования в области согласования ИИ должны учитывать не только «неправильные цели», но и хаотичность поведения умных систем.

Более детально об исследовании читайте на официальном сайте по ссылке ниже а также, в журнале
arXiv

Источник

Предыдущая статья

Как Microsoft хочет изменить роль ИИ в бизнесе

Следующая статья

Как Claude от Anthropic стал соавтором движения Perseverance на Марсе

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Пожалуйста, введите ваш комментарий!

пожалуйста, введите ваше имя здесь

Вы ввели неверный адрес электронной почты!

пожалуйста, введите свой адрес электронной почты здесь

Исследование Anthropic показало новый тип рисков искусственного интеллекта

Два типа провалов ИИ — в чём разница

Как это измеряли на практике

Главный вывод исследования

Неожиданный эффект масштабирования

Почему это меняет разговор о рисках ИИ

Что из этого следует

Разъемы оптических патч-кордов — типы коннекторов и их применение

Льстивый ИИ — почему искусственный интеллект, который всегда соглашается, может быть опасен

Как искусственный интеллект меняет правила SEO и что делать прямо сейчас

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Популярное

Вспомнить все, или в чем опасность Copilot+ Recall

Озвучка видео с помощью нейросетей без лишней возни

Как уменьшить свой цифровой след

Три подхода к теневому ИИ

Последние комментарии

ВЫБОР РЕДАКЦИИ

NDR: в авангарде защиты вашей компании

Как растущему бизнесу пережить цифровизацию

Обзор HUAWEI MatePad 11,5 S (2026): и для работы, и для творчества

ПОПУЛЯРНОЕ

Рasskeys-2025: советы продвинутым пользователям

Как настроить безопасность и приватность в ASICS Runkeeper

Зачем брокеры данных собирают на вас досье и как это прекратить

КАТЕГОРИИ

О НАС

СЛЕДИТЕ ЗА НАМИ