Учёные задались целью проверить, могут ли последние достижения в области ИИ, в частности, популярная большая языковая модель GPT, помочь сделать автоматизированный анализ текста более простым и действенным. Результаты исследования продемонстрировали эффективность GPT, а в некоторых аспектах версия GPT-4 Turbo превзошла самую эффективную тонко настроенную модель.
Социальные и поведенческие науки всё чаще используют автоматизированный анализ текста для измерения в нём психологических конструкций (настроения, дискретных эмоций, оскорбительных коннотаций и моральных основ). Несмотря на популярность такого анализа, существующие методы имеют несколько серьёзных недостатков.
В поисках альтернатив учёные протестировали способность 3-х различных версий GPT (3.5 Turbo, GPT-4 и GPT-4 Turbo — обновлённой версии GPT-4, выпущенной в январе 2024 года с данными обучения до декабря 2023 года) точно определять психологические конструкции в тексте. Для этого использовали 15 наборов данных (47 912 аннотированных вручную твитов, новостных заголовков и комментариев).
Каждый из этих наборов данных был вручную аннотирован людьми-оценщиками на наличие или отсутствие определённых психологических конструкций. Для каждой психологической конструкции сначала проверили производительность GPT на английском языке, а затем на языке из другой языковой семьи (арабском, индонезийском или турецком), используя 6 общедоступных наборов данных с категориальными метками.
Авторы работы проанализировали также набор данных новостных заголовков, оценённых по настроению и отдельным эмоциям, чтобы изучить экспертизу GPT в отношении психологической шкалы.
Во многих случаях GPT работал эффективно, а иногда и лучше, чем тонко настроенные модели машинного обучения. Однако производительность GPT часто была ниже, чем у более поздних тонко настроенных моделей, хотя и существенно улучшилась между версиями с GPT-3.5 до GPT-4 Turbo.
PNAS
GPT is an effective tool for multilingual psychological text analysis
Комментарии (0)