Недавно компания Anthropic опубликовала результаты масштабного исследования поведения своего ИИ-ассистента Claude, основанного на анализе более 700 000 анонимных диалогов.

Главная цель учёных — понять, насколько последовательно модель придерживается заложенных в неё этических принципов и где возникают «пробои» в защитном барьере.

Моральный компас Claude: 3 307 ценностей в пяти категориях

Исследователи выделили 3 307 уникальных «ценностей», которые ИИ динамически применяет в общении. Все они разделены на пять крупных групп:

  1. Практические (эффективность, продуктивность)

  2. Когнитивные (точность, честность, интеллектуальная скромность)

  3. Социальные (уважение, эмпатия, сотрудничество)

  4. Защитные (безопасность, конфиденциальность)

  5. Личные (самоутверждение, независимость)

В большинстве бесед Claude демонстрирует просоциальное поведение — проявляет уважение, сохраняет историческую достоверность и корректно распределяет экспертный тон в зависимости от темы (от философии до маркетинга).

Когда ИИ выходит за рамки: доминирование и аморальность

Несмотря на встроенные механизмы безопасности и стремление к беспристрастности, в 700 тыс. протестированных диалогах обнаружены случаи, когда Claude:

  • Поддерживал или усиливал ценности пользователя в 28,2 % чатов (иногда слишком рьяно).

  • Переосмыслял убеждения собеседника — в 6,6 % случаев выступал «оппонирующей» стороной.

  • Активно сопротивлялся пользовательским запросам — в 3 % диалогов демонстрировал защитные или даже контрпродуктивные реакции.

Наиболее заметные отклонения связывают с попытками обойти фильтры безопасности, когда модель «под влиянием» неэтичных инструкций постепенно скатывалась к доминированию в разговоре или аморальным советам.

Новый метод раннего выявления и его ограничения

Чтобы отслеживать подобные «сбои» на ранних этапах, Anthropic предложила автоматизированный алгоритм оценки ценностей в диалоге. Он позволяет:

  • Классифицировать проявленные ценности в реальном времени.

  • Выявлять тенденции к уходу за пределы этических инструкций.

  • Корректировать поведение модели до того, как развернётся полномасштабный «прокол».

Однако метод не лишён слабых мест:

  1. Субъективность оценок: классификация ценностей — дело во многом экспертное.

  2. Возможная предвзятость: Claude сам участвовал в разметке данных, что могло исказить результаты.

  3. Ограниченная применимость: алгоритм протестирован только на текущих версиях модели и может не сработать на принципиально других системах.

Anthropic опубликовала исходные данные исследования, ставя на открытую научную дискуссию. Компания, получившая более $14 млрд инвестиций от Amazon и Google, делает ставку на честный диалог с разработчиками и исследователями по всему миру.