Искусственный интеллект и распознавание эмоций. Прорыв от команды СберБанка
Современные системы распознавания речи продолжают совершенствоваться — ИИ «Calendar» обучился не только понимать по голосу, что говорит пользователь, но и предполагать, какие эмоции он испытывает. Данная модель нейросети может быть в скором времени введена в колл-центры в качестве оператора-ассистента для сокращения времени ожидания клиентов.
Российские разработчики из команды Сбербанка, Института AIRI и МФТИ подготовили самообучающегося AI-помощника, который получил название Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER). Инструмент способен распознавать эмоциональную окраску речи человека с точностью до 74,6% — подобную оценку он получил при проверке на датасете IEMOCAP.
Результат стал прорывом в своей сфере благодаря уникальному соотношению скорости работы и достоверности и был опубликован в формате научной работы под названием «CA-SER: распознавание эмоций в речи на основе механизма внимания и объединения акустических признаков» в сборнике ведущей конференции мира на тему ИИ — ECAI 2024.
Разберем, как работает система, простыми словами — сначала распознаются непосредственно сами слова. После этого определяется эмоциональная окраска по интонации и громкости речи. Далее нейронка производит расчет, учитывая индивидуальные особенности человека и комбинирует собранные данные.
Процесс «мышления» продукта происходит на основе ИИ модели wav2vec 2.0 и анализа спектральных акустических признаков (MFCC) через механику «перекрестного внимания».
Большая часть доступных SSL-моделей подготовлена для распознавания «чистых аудиоданных» — то есть, без вариативности в тональности, скорости и учета речевых несоответствий. В связи с этим, к примеру, роботы-операторы не справлялись помочь пользователю контактного центра — так как не учтенной оставалась эмоциональная составляющая разговора. В ближайшем будущем можно ожидать повсеместное внедрение инструментах в тех сферах, где общение с потребителем происходит по готовому сценарию в режиме реального времени.
Исходный код нейросети был опубликован в открытых источниках, чтобы в дальнейшем ученые и исследователи могли тестировать модель, обучать ее и дорабатывать существующий функционал. Ближайшие цели, на которые нацелены новые пользователи — анализ работы ИИ-помощника с другими языками. В связи с тем, что у разных культур сформировано характерное интонирование при выражении эмоций, сложившееся из-за языковых особенностей. Научив нейронку воспринимать такие различия, можно повысить универсальность инструмента и применять его в международном масштабе.