«Чтение» соцсетей делает ИИ глупее и токсичнее — исследование
Группа исследователей из Университета Иллинойса, Массачусетского технологического института и Сингапурского университета управления опубликовала исследование, как дообучение больших языковых моделей на постах из соцсетей влияет на их качество. Ключевой вывод: модели становятся менее логичными, хуже рассуждают и чаще выдают токсичные или опасные ответы.
Ученые собрали корпус коротких и популярных твитов, затем поэтапно добавляли их в процесс дообучения четырех языковых моделей: Llama 3 8B Instruct, Qwen 2.5 7B Instruct, Qwen 2.5 0.5B Instruct, Qwen 3 4B Instruct. Результаты измеряли по четырем направлениям: рассуждение (ARC), работа с длинным контекстом (RULER), безопасность (HH-RLHF, AdvBench) и поведенческие черты (TRAIT). Во всех случаях наблюдался четкий "доза-эффект": чем больше доля «мусорных» постов, тем сильнее деградация.
Главная поломка оказалась не в знаниях, а в мышлении. Модели начали чаще "пропускать мысль": отвечать без плана, обрывать рассуждения и терять логическую цепочку. Одновременно возрастала токсичность и агрессивность ответов, а по поведенческим метрикам усиливались "темные черты" — нарциссизм, макиавеллизм и психопатия. Попытки исправить проблему через инструкционное дообучение или рефлексию помогали лишь частично: исходный уровень восстановить не удалось.
Еще один неожиданный вывод — больше всего вредят популярные посты. Количество лайков и репостов оказалось лучшим сигналом того, что контент ухудшит модель. Короткость текста сама по себе не вредна; опасен именно "виральный" стиль — кратко, громко, без развернутой мысли.
Выводы исследования помогут при тренировке будущих моделей. Дело в том, что если совсем убрать посты и соцсетей и форумов из обучающих данных — то языковая модель не сможет понимать интернет-жаргон и станет бесполезной в некоторых ситуациях. Однако понимание того, как именно может навредить такой контент, поможет лучше настроить корпус обучающих данных.
Учёные доказали, что нейросети тоже тупеют из-за быстрого контента
ИИ-моделям несколько недель скармливали всё самое мусорное из интернета (короткие видео, посты в твиттере, мемы, новости уровня «В С Ё» и т.д.). В результате нейронки действительно испытали брейнрот и сильно деградировали: минус 23% в логике и минус 38% в понимании длинных текстов. Этика и «здоровое поведение» тоже ухудшились, а также повысились показатели нарциссизма и психопатии. После этого исследователи пробовали переобучить модели уже на хороших данных, но эффект был минимальным — полностью ум не вернулся, а следы деградации остались. Учёные отметили, что всё это очень похоже на то, как быстрый контент влияет на людей.