Инновационные подходы в аудиоаналитике разработаны в МГУ. Метод позволяет точно идентифицировать спикеров

Ученые из Московского государственного университета разработали новый метод диаризации спикеров, который позволяет эффективно различать голоса даже в условиях перекрытия речи. Инновация значительно улучшает потоковую обработку аудио и расширяет возможности анализа речевых данных.

Методика, предложенная исследовательской группой под руководством доцента кафедры математических методов прогнозирования факультета ВМК МГУ Арчила Майсурадзе, решает две ключевые задачи: идентификацию участников разговора и определение времени их активности. Работа была представлена на Всероссийской Конференции ММРО-2023 и получила высокую оценку специалистов.

Диаризация спикеров – сложная задача, требующая от алгоритмов способности разделять и определять участников беседы на аудиозаписи. Новый метод уникален тем, что эффективно работает даже при наличии фонового шума и перекрытия голосов, что традиционно является серьезной проблемой для большинства существующих систем.

«Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными»

— Арчил Майсурадзе.

Среди основных инноваций метода — использование сегментации с обнаружением перекрытия речи, что позволяет улучшить точность идентификации речевых сегментов. Кроме того, метод включает оптимизированное извлечение вложений и адаптивную кластеризацию для эффективной обработки сегментов с перекрытием.

«В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных, предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями».

— Дмитрий Попов, студент магистратуры кафедры математических методов прогнозирования МГУ.

Этот метод открывает новые возможности для применения в различных сферах, где важна точная идентификация говорящих, включая транскрибирование, автоматический перевод и системы наблюдения.

Нет комментариев