Xiaomi mở nguồn OmniVoice: một mô hình phủ sóng giọng nói clone của 646 loại ngôn ngữ

robot
Đang tạo bản tóm tắt

Thông báo từ Coinjie.com, nhóm nghiên cứu AI của Xiaomi đã mở nguồn thế hệ mới của Kaldi, OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu hỗ trợ 646 loại ngôn ngữ. Mô hình này có thể clone giọng nói chỉ trong vài giây dựa trên âm thanh tham khảo, hỗ trợ chuyển đổi đa ngôn ngữ. Mã nguồn, trọng số và dữ liệu huấn luyện đều mở, sử dụng giấy phép Apache-2.0. Kiến trúc OmniVoice theo phong cách tối giản, chỉ có một Transformer hai chiều, trực tiếp ánh xạ từ văn bản đến các mã âm thanh token, không cần quy trình hai bước. Dữ liệu huấn luyện lấy từ 50 bộ dữ liệu âm thanh mã nguồn mở, sau khi loại bỏ tiếng ồn và chọn lọc chất lượng, tổng cộng đạt 580.000 giờ. Trong các thử nghiệm trên 24 ngôn ngữ, độ tương đồng giọng nói và khả năng hiểu đều vượt qua nhiều hệ thống thương mại, trong thử nghiệm trên 102 ngôn ngữ, khả năng hiểu gần như hoặc vượt cả ghi âm thật. Ngoài clone giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng dựa trên mô tả văn bản, tự động giảm tiếng ồn của âm thanh tham khảo có tiếng ồn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim