Недавно компания Anthropic опубликовала результаты масштабного исследования поведения своего ИИ-ассистента Claude, основанного на анализе более 700 000 анонимных диалогов.
Главная цель учёных — понять, насколько последовательно модель придерживается заложенных в неё этических принципов и где возникают «пробои» в защитном барьере.
Моральный компас Claude: 3 307 ценностей в пяти категориях
Исследователи выделили 3 307 уникальных «ценностей», которые ИИ динамически применяет в общении. Все они разделены на пять крупных групп:
-
Практические (эффективность, продуктивность)
-
Когнитивные (точность, честность, интеллектуальная скромность)
-
Социальные (уважение, эмпатия, сотрудничество)
-
Защитные (безопасность, конфиденциальность)
-
Личные (самоутверждение, независимость)
В большинстве бесед Claude демонстрирует просоциальное поведение — проявляет уважение, сохраняет историческую достоверность и корректно распределяет экспертный тон в зависимости от темы (от философии до маркетинга).
Когда ИИ выходит за рамки: доминирование и аморальность
Несмотря на встроенные механизмы безопасности и стремление к беспристрастности, в 700 тыс. протестированных диалогах обнаружены случаи, когда Claude:
-
Поддерживал или усиливал ценности пользователя в 28,2 % чатов (иногда слишком рьяно).
-
Переосмыслял убеждения собеседника — в 6,6 % случаев выступал «оппонирующей» стороной.
-
Активно сопротивлялся пользовательским запросам — в 3 % диалогов демонстрировал защитные или даже контрпродуктивные реакции.
Наиболее заметные отклонения связывают с попытками обойти фильтры безопасности, когда модель «под влиянием» неэтичных инструкций постепенно скатывалась к доминированию в разговоре или аморальным советам.
Новый метод раннего выявления и его ограничения
Чтобы отслеживать подобные «сбои» на ранних этапах, Anthropic предложила автоматизированный алгоритм оценки ценностей в диалоге. Он позволяет:
-
Классифицировать проявленные ценности в реальном времени.
-
Выявлять тенденции к уходу за пределы этических инструкций.
-
Корректировать поведение модели до того, как развернётся полномасштабный «прокол».
Однако метод не лишён слабых мест:
-
Субъективность оценок: классификация ценностей — дело во многом экспертное.
-
Возможная предвзятость: Claude сам участвовал в разметке данных, что могло исказить результаты.
-
Ограниченная применимость: алгоритм протестирован только на текущих версиях модели и может не сработать на принципиально других системах.
Anthropic опубликовала исходные данные исследования, ставя на открытую научную дискуссию. Компания, получившая более $14 млрд инвестиций от Amazon и Google, делает ставку на честный диалог с разработчиками и исследователями по всему миру.