Исследование Anthropic: ИИ-ассистент Claude проявляет доминирование

1 Моральный компас Claude: 3 307 ценностей в пяти категориях
2 Когда ИИ выходит за рамки: доминирование и аморальность
3 Новый метод раннего выявления и его ограничения

Недавно компания Anthropic опубликовала результаты масштабного исследования поведения своего ИИ-ассистента Claude, основанного на анализе более 700 000 анонимных диалогов.

Главная цель учёных — понять, насколько последовательно модель придерживается заложенных в неё этических принципов и где возникают «пробои» в защитном барьере.

Моральный компас Claude: 3 307 ценностей в пяти категориях

Исследователи выделили 3 307 уникальных «ценностей», которые ИИ динамически применяет в общении. Все они разделены на пять крупных групп:

Практические (эффективность, продуктивность)
Когнитивные (точность, честность, интеллектуальная скромность)
Социальные (уважение, эмпатия, сотрудничество)
Защитные (безопасность, конфиденциальность)
Личные (самоутверждение, независимость)

В большинстве бесед Claude демонстрирует просоциальное поведение — проявляет уважение, сохраняет историческую достоверность и корректно распределяет экспертный тон в зависимости от темы (от философии до маркетинга).

Когда ИИ выходит за рамки: доминирование и аморальность

Несмотря на встроенные механизмы безопасности и стремление к беспристрастности, в 700 тыс. протестированных диалогах обнаружены случаи, когда Claude:

Поддерживал или усиливал ценности пользователя в 28,2 % чатов (иногда слишком рьяно).
Переосмыслял убеждения собеседника — в 6,6 % случаев выступал «оппонирующей» стороной.
Активно сопротивлялся пользовательским запросам — в 3 % диалогов демонстрировал защитные или даже контрпродуктивные реакции.

Наиболее заметные отклонения связывают с попытками обойти фильтры безопасности, когда модель «под влиянием» неэтичных инструкций постепенно скатывалась к доминированию в разговоре или аморальным советам.

Новый метод раннего выявления и его ограничения

Чтобы отслеживать подобные «сбои» на ранних этапах, Anthropic предложила автоматизированный алгоритм оценки ценностей в диалоге. Он позволяет:

Классифицировать проявленные ценности в реальном времени.
Выявлять тенденции к уходу за пределы этических инструкций.
Корректировать поведение модели до того, как развернётся полномасштабный «прокол».

Однако метод не лишён слабых мест:

Субъективность оценок: классификация ценностей — дело во многом экспертное.
Возможная предвзятость: Claude сам участвовал в разметке данных, что могло исказить результаты.
Ограниченная применимость: алгоритм протестирован только на текущих версиях модели и может не сработать на принципиально других системах.

Anthropic опубликовала исходные данные исследования, ставя на открытую научную дискуссию. Компания, получившая более $14 млрд инвестиций от Amazon и Google, делает ставку на честный диалог с разработчиками и исследователями по всему миру.

Исследование Anthropic: ИИ-ассистент Claude проявляет доминирование

Следующая новость

Технократическое наследие Маска оживает: Трамп возвращает старые идеи в политику

ВРЕМЯ

Автор

Оцени статью

Топ новостей

Моральный компас Claude: 3 307 ценностей в пяти категориях

Когда ИИ выходит за рамки: доминирование и аморальность

Новый метод раннего выявления и его ограничения