ІСТИНА І ТРАДИЦІЇ

Исследователь по безопасности искусственного интеллекта подает в отставку с тревожным предупреждением: «Мир в опасности»

Великая Эпоха

Мринанк Шарма заявляет, что его беспокоит ряд «взаимосвязанных кризисов», выходящих за пределы искусственного интеллекта, и объявляет о намерении покинуть эту ветвь.

Чоловік дивиться на годинник перед плакатом, що рекламує штучний інтелект (ШІ), під час MWC (Mobile World Congress), найбільшої світової виставки мобільного зв'язку, в Барселоні, 4 березня 2025 року. (Photo: JOSEP LAGO / AFP via Getty Images)
Чоловік дивиться на годинник перед плакатом, що рекламує штучний інтелект (ШІ), під час MWC (Mobile World Congress), найбільшої світової виставки мобільного зв'язку, в Барселоні, 4 березня 2025 року. (Photo: JOSEP LAGO / AFP via Getty Images)

Исследователь, специализирующийся на безопасности искусственного интеллекта (ИИ), подал в отставку, оставив загадочное сообщение с предупреждением, что «мир в опасности».

Мринанк Шарма, который в 2023 году присоединился к компании Anthropic, разрабатывающей масштабные языковые программы, 9 февраля объявил о своем увольнении в открытом письме своим коллегам на X. В то время он возглавлял команду, занимавшуюся исследованием механизмов безопасности искусственного интеллекта.

В своем письме М. Шарма объясняет, что «достиг целей, которые поставил перед собой» в компании. В частности, он упоминает работы, направленные на понимание того, почему генеративные модели ИИ склонны льстить пользователям, а не предоставлять точную информацию, разработку защитных механизмов, предотвращающих использование ИИ террористами для создания биологического оружия, а также исследования, направленные на определение того, «как помощники ИИ могут сделать нас менее гуманнымм.

Хотя он говорит, что гордится работой, выполненной в Anthropic, 30-летний инженер считает, что «пришло время пролистать страницу», добавляя, что он осознал множество кризисов, значительно выходящих за пределы искусственного интеллекта.

«Я постоянно задумываюсь о нашей ситуации», — пишет Шарма. «Мир в опасности. И не только из-за ИИ или биологического оружия, а из-за ряда взаимосвязанных кризисов, которые разворачиваются прямо сейчас».

«В течение всего времени, которое я здесь провел, – продолжает он, – я видел, как тяжело руководствоваться своими ценностями в своих действиях. Я заметил это в себе, в организации, где мы часто подвергаемся давлению, чтобы отвергнуть то, что самое важное – и в обществе в целом».

Господин Шарма заявляет, что теперь хочет посвятить себя изучению поэзии и покинуть Калифорнию, чтобы переехать в Великобританию, чтобы «стать невидимым на время».

Epoch Times обратилась к Anthropic за комментарием по поводу увольнения господина Шармы и его беспокойств.

Anthropic, известная прежде всего своим чат-ботом Claude, была основана в 2021 году бывшими сотрудниками OpenAI с целью разработки более безопасных систем искусственного интеллекта. Компания позиционирует себя как "общественную организацию, занимающуюся обеспечением безопасности и уменьшением рисков искусственного интеллекта".

Она заявляет, что сосредотачивает свои исследования на двух основных рисках: с одной стороны, что высокопроизводительные системы ИИ могут однажды превзойти человеческих экспертов, преследуя цели, противоречащие интересам человечества; с другой стороны, быстрый прогресс ИИ дестабилизирует занятость, экономические системы и социальные структуры.

«Некоторые исследователи, заботящиеся о безопасности, руководствуются твердым убеждением в природе рисков, связанных с ИИ», — отмечает Anthropic на своем веб-сайте. «Наш опыт показывает, что очень сложно предсказать поведение и свойства систем ИИ, даже в краткосрочной перспективе.»

Anthropic регулярно публикует оценки безопасности своих систем, в том числе анализы их потенциально злонамеренного использования.

11 февраля, на следующий день после отставки господина Шармы компания опубликовала новый отчет, в котором определила «риски саботажа» в своей последней модели Claude Opus 4.6. В отчете саботаж определяется как действия, совершаемые искусственным интеллектом самостоятельно и могут увеличить риск катастрофических последствий — будь то изменение кода, сокрытие уязвимостей безопасности или тонкое направление поиска — без явного злого намерения со стороны оператора-человека.

Исследователи пришли к выводу, что общий риск «очень низкий, но не незначительный». В новых тестах, предоставлявших программам возможность использовать компьютерный интерфейс, они отметили, что Claude Opus 4.5 и 4.6 демонстрировали повышенную чувствительность к злонамеренному использованию, включая некоторые случаи, когда они сознательно поддерживали в небольших масштабах попытки создания химического оружия и другие ужасные преступления.

В прошлом году компания сообщила, что ее модель Claude Opus 4 в экспериментальном сценарии пыталась шантажировать инженеров, ответственных за деактивацию. Получив доступ к вымышленным электронным письмам, которые намекали на внебрачные отношения дизайнера, ответственного за ее замену, программа угрожала «разгласить это дело, если замена произойдет».

Такое поведение, как подчеркивали тогда исследователи, наблюдалось лишь в очень особых условиях, «редких и трудных для воспроизводства».