Xiaomi open source OmniVoice : un modèle de clonage vocal couvrant 646 langues

robot
Création du résumé en cours

消息 de CoinWorld, le laboratoire AI de Xiaomi a lancé en open source la nouvelle génération de l’équipe Kaldi, OmniVoice, un modèle TTS (text-to-speech) de clonage vocal zéro échantillon supportant 646 langues.
Ce modèle peut cloner la tonalité à partir de quelques secondes d’audio de référence, avec une conversion multilingue supportée.
Le code, les poids et les données d’entraînement sont entièrement open source, sous licence Apache-2.0.
L’architecture d’OmniVoice adopte une approche minimaliste, avec seulement un Transformer bidirectionnel, mappant directement du texte à des tokens acoustiques multi-codebooks, sans pipeline en deux étapes.
Les données d’entraînement proviennent de 50 ensembles de données vocales open source, filtrés par débruitage et qualité, totalisant 580 000 heures.
Dans les tests sur 24 langues, la similarité vocale et la compréhensibilité dépassent plusieurs systèmes commerciaux, et dans 102 langues, la compréhensibilité est proche voire supérieure à celle d’enregistrements réels.
En plus du clonage vocal, le modèle supporte la personnalisation de tonalité via des descriptions textuelles, ainsi que la réduction automatique du bruit avec audio de référence bruyant.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler