Xiaomi AI лаборатория открыла исходный код OmniVoice — это нулевой образец голосового клонирования TTS на 646 языках. Использует только один двунаправленный трансформер для отображения текста в дискретные акустические токены, без необходимости двухэтапной конвейерной обработки. Основная идея — случайное маскирование полного кодового словаря и инициализация параметров предобученной большой модели, что обеспечивает 40-кратную скорость вывода в реальном времени, работает на PyTorch. Обучение проведено на 50 открытых датасетах, объемом 580 тысяч часов, с использованием апсэмплинга для языков с низкими ресурсами. Тестирование на 24 языках показывает превосходство над несколькими коммерческими системами, а на 102 языках достигается близкое к реальной записи качество; также возможна настройка тембра по текстовому описанию, автоматическое шумоподавление, эмоциональные символы и исправление собственных имен.

BlockBeatNews

2026-05-07 10:35:45

Генерация тезисов в процессе

Согласно мониторингу Beating, команда нового поколения Kaldi лаборатории искусственного интеллекта Xiaomi выпустила OmniVoice — модель TTS (текст в речь), поддерживающую 646 языков и основанную на нулевом образце голосового клонирования. За несколько секунд с помощью референсного аудио можно клонировать голос, даже между языками: предоставьте запись на китайском, и модель сможет говорить на японском, корейском или других языках тем же голосом. Весь код, веса и обучающие данные открыты, лицензия Apache-2.0.

В архитектуре OmniVoice придерживается минималистского подхода. Вся модель состоит из одного двунаправленного трансформера, который напрямую отображает текст в многокодовые акустические токены (дискретное кодирование звука), без двухэтапной цепочки — сначала семантический токен, затем акустический. Два ключевых элемента обеспечивают простую структуру: стратегия случайного маскирования всех кодов для повышения эффективности обучения, и инициализация с помощью предобученных параметров больших языковых моделей для повышения точности произношения. Скорость вывода в 40 раз превышает реальное время, работает прямо на PyTorch без дополнительных оптимизаций.

Обучающие данные взяты из 50 открытых наборов голосовых данных, после шумоподавления и отбора качества всего собрано 580 тысяч часов. Для малоресурсных языков используется динамическое увеличение выборки для обеспечения качества обучения. В тестах на 24 языках голос OmniVoice превосходит по сходству и разборчивости несколько коммерческих систем. В тестах на 102 языках разборчивость приближается или превосходит реальную запись. Даже языки с менее чем 10 часами данных могут быть синтезированы.

Помимо голосового клонирования, модель поддерживает настройку тембра по текстовому описанию (например, «мужчина, средний возраст, очень низкий тон» или «женщина, молодой, сычуаньский диалект»), автоматическое шумоподавление по звуковой подсказке, вставку интонационных символов, таких как смех или вздох, а также исправление произношения сложных китайских и английских омонимов и собственных имен.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
559.86K Популярность
#
BTCPullback
106.31M Популярность
#
IsraelStrikesIranBTCPlunges
43.76K Популярность
#
CLARITYActStalled
3.28M Популярность
#
CryptoStocksRally
1.42M Популярность

Закрепить

Карта сайта

Популярные темы

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Закрепить