Xiaomi открывает исходный код OmniVoice — модель клонирования голоса Zero-Shot с возможностью, поддерживающая 646 языков

По данным Beating, команда Kaldi в AI Lab компании Xiaomi открыла исходный код OmniVoice — модели TTS с голосовым клонированием без примеров (zero-shot), поддерживающей 646 языков. Модель клонирует характеристики голоса всего по нескольким секундам референсного аудио и работает между языками — один и тот же голос может синтезировать речь на китайском (mandarin), японском, корейском и других языках. Весь код, веса и обучающие данные открыты под лицензией Apache-2.0.

OmniVoice использует упрощённую архитектуру с одним двунаправленным Transformer, который напрямую преобразует текст в дискретные акустические токены, обеспечивая вывод в 40 раз быстрее реального времени в PyTorch. Обученная на 580 тыс. часов аудио с 50 открытых наборов данных, OmniVoice превзошла коммерческие системы по сходству голоса и разборчивости речи на 24 протестированных языках и совпадала или превосходила записи человека в 102 языках.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Rebirth запускает инструмент BACH AI для многокадровой генерации видео до 30 секунд

Video Rebirth запустила BACH 7 мая — инструмент, который генерирует многошотовые видео длительностью до 30 секунд по текстовым подсказкам и референсным изображениям. Инструмент поддерживает согласованность персонажей между кадрами, выполняет инструкции по камере и создаёт нативное видео в разрешении 1080p со звуковыми эффектами, закадровым голосом и

GateNews4ч назад

Tether выпустила медицинскую AI-модель QVAC MedPsy и набрала 62,62 балла в версии с 17 млрд параметров

По данным Odaily, Tether AI Research Group выпустила QVAC MedPsy — медицинскую AI-модель, предназначенную для работы локально на смартфонах и носимых устройствах без зависимости от облака. Версия с 1,7 миллиарда параметров набрала 62,62 балла по семи медицинским бенчмаркам, обойдя MedGemma-1.5-4B от Google на 11,42 poi

GateNews5ч назад

TCV возглавляет $160M раунд B для стартапа Corgi Insurance

Corgi, американский стартап страхования бизнеса, объявил 6 мая, что привлёк 160 миллионов долларов в рамках раунда финансирования Series B, который возглавила TCV, при оценке в 1,3 миллиарда долларов, сообщает TechCrunch. В раунд также вошли Kindred Ventures, Leblon Capital и First Order Fund. Это доводит общий объём финансирования Corgi до $268

CryptoFrontier13ч назад

B.AI Превышает 1,7 миллиона пользователей 7 мая и запускает программу вознаграждений

По данным B.AI, платформа инфраструктуры для ИИ превысила 1,7 миллиона пользователей 7 мая. Платформа, ориентированная на защиту приватности и инфраструктуру агентной экономики, предлагает новым пользователям 500 тыс. бесплатных кредитов при регистрации, нулевую надбавку к ценам на все модели и ограниченную по времени акцию 1:1

GateNews14ч назад

Osome сокращает 70+ ролей и улучшает EBITDA на 50% за счёт смещения на ИИ

По данным Tech in Asia, базирующаяся в Сингапуре платформа корпоративного управления Osome сократила более 70 должностей за последние два года, одновременно внедряя ИИ для выполнения задач комплаенса, таких как фиксация транзакций и обработка счетов-фактур. Генеральный директор Эудженио Ферранте заявил, что компания столкнулась с замедлением роста выручки i

GateNews17ч назад

Schneider Electric откроет учебный центр для Юго-Восточной Азии в Малайзии в этом году, AI-инструменты сокращают энергопотребление на 2%-3%

Как сообщает Reuters, Schneider Electric планирует открыть в этом году в Малайзии учебный центр по подготовке в Юго-Восточной Азии, чтобы справиться с растущим спросом на электроэнергию из‑за расширения ИИ‑инфраструктуры в регионе. Центр будет обучать партнеров и клиентов системам управления энергопотреблением и оборудованию для дата-центров. Schneider'

GateNews17ч назад
комментарий
0/400
Нет комментариев