Понедельник, 1 июня, 2026
Google search engine
ДомойИскусственный интеллектИсследование Anthropic показало новый тип рисков искусственного интеллекта

Исследование Anthropic показало новый тип рисков искусственного интеллекта


Исследователи из Anthropic выяснили, что по мере роста интеллекта ИИ и усложнения задач системы чаще ошибаются не «осмысленно», а хаотично. Вместо последовательного стремления к неправильной цели продвинутые модели всё чаще ведут себя как «горячий беспорядок» — непредсказуемо и несогласованно.

Исследование Anthropic показало новый тип рисков искусственного интеллекта

Одна из главных тревог вокруг будущего искусственного интеллекта связана с так называемым «максимайзером скрепки» — сценарием, при котором сверхразумная система последовательно и эффективно преследует неправильную цель. Однако новое исследование программы Anthropic Fellows показывает: в реальности всё может быть гораздо менее «рационально» — и оттого не менее опасно.

Учёные попытались ответить на вопрос: как именно будут выглядеть ошибки всё более умных ИИ, как холодный расчёт или как хаос?

Два типа провалов ИИ — в чём разница

В исследовании рассматриваются два принципиально разных сценария неудач.

  1. Первый — систематическая ошибка. В этом случае модель стабильно делает одно и то же неправильное действие. Она логична, последовательна, но движется не туда. Именно с таким типом ошибок обычно связывают риски «несогласованного ИИ».
  2. Второй — несогласованная ошибка. Здесь модель каждый раз ошибается по-разному: меняет решения, перескакивает между вариантами, противоречит сама себе. Такое поведение исследователи называют «incoherent» — несобранным и непредсказуемым.

Как это измеряли на практике

Чтобы не оставаться на уровне теории, команда Anthropic разобрала ошибки ИИ на составляющие. Упрощённо — они посмотрели, какая часть ошибок связана с устойчивым «смещением» модели, а какая возникает из-за случайных колебаний поведения.

Далее эти показатели сравнили:

  • при разной длине рассуждений,
  • на задачах разной сложности,
  • у моделей разного масштаба.

В тестах использовались экзаменационные вопросы, задачи на программирование, оценки безопасности и даже синтетические эксперименты, где ИИ имитировал работу оптимизатора.

Главный вывод исследования

Чем сложнее задача и чем дольше ИИ «думает», тем более хаотичными становятся его ошибки.

Модель не начинает уверенно добиваться неправильной цели. Напротив — её поведение всё чаще распадается на непоследовательные и трудно предсказуемые действия.

Неожиданный эффект масштабирования

Интуитивно кажется, что более крупные и «умные» модели должны быть более собранными. Исследование показывает более сложную картину.

На простых задачах масштабирование действительно снижает хаос — большие модели ведут себя аккуратнее. Но на сложных задачах эффект исчезает или даже обращается вспять: чем мощнее модель, тем более несогласованно она может ошибаться.

Проще говоря, увеличение интеллекта не гарантирует устойчивости поведения.

Почему это меняет разговор о рисках ИИ

Результаты Anthropic смещают акцент в обсуждении безопасности. Будущие проблемы ИИ могут напоминать не злонамеренный заговор сверхразума, а промышленные аварии — цепочки случайных сбоев, возникающих при перегрузке сложных систем.

Это не делает ИИ безопасным. Непредсказуемые системы опасны по-своему, особенно там, где ошибки нельзя быстро исправить или «откатить».

В исследовании подчёркивается, что ИИ может быстрее «понять», какую цель нужно достигать, чем научиться стабильно и последовательно действовать для её достижения.

Что из этого следует

Авторы подчёркивают: простое наращивание масштаба моделей не решит проблему. Если будущие ИИ будут всё чаще сталкиваться с длинными цепочками действий и сложными решениями, то без специальных механизмов контроля их поведение станет менее предсказуемым, а не более.

Это означает, что исследования в области согласования ИИ должны учитывать не только «неправильные цели», но и хаотичность поведения умных систем.


Более детально об исследовании читайте на официальном сайте по ссылке ниже а также, в журнале 
arXiv



Источник

РЕКОМЕНДУЕМ

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

- Advertisment -
Google search engine

Популярное

Последние комментарии