Nhóm Kaldi của Phòng thí nghiệm AI của Xiaomi đã mở mã nguồn OmniVoice, hỗ trợ tổng hợp giọng nói TTS không mẫu cho 646 ngôn ngữ, có thể clone giọng nói chỉ trong vài giây dựa trên âm thanh tham khảo và thực hiện chuyển đổi đa ngôn ngữ. Mã nguồn, trọng số và dữ liệu huấn luyện đều mở (Apache-2.0). OmniVoice chỉ sử dụng một Transformer hai chiều, ánh xạ trực tiếp văn bản thành các mã âm thanh đa mã, không cần quy trình hai giai đoạn. Dữ liệu huấn luyện đến từ 50 bộ dữ liệu mã nguồn mở, sau khi lọc giảm nhiễu đạt 580.000 giờ. Trong thử nghiệm trên 24 ngôn ngữ, chất lượng âm thanh và khả năng hiểu vượt nhiều hệ thống thương mại, trong thử nghiệm trên 102 ngôn ngữ, khả năng hiểu gần như hoặc vượt cả ghi âm thật. Cũng hỗ trợ tùy chỉnh giọng nói bằng mô tả văn bản, tự động giảm nhiễu khi có âm tham khảo có tiếng ồn.

CoinNetwork

2026-05-07 10:29:33

Đang tạo bản tóm tắt

Thông báo từ Coinjie.com, nhóm nghiên cứu AI của Xiaomi đã mở nguồn thế hệ mới của Kaldi, OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu hỗ trợ 646 loại ngôn ngữ. Mô hình này có thể clone giọng nói chỉ trong vài giây dựa trên âm thanh tham khảo, hỗ trợ chuyển đổi đa ngôn ngữ. Mã nguồn, trọng số và dữ liệu huấn luyện đều mở, sử dụng giấy phép Apache-2.0. Kiến trúc OmniVoice theo phong cách tối giản, chỉ có một Transformer hai chiều, trực tiếp ánh xạ từ văn bản đến các mã âm thanh token, không cần quy trình hai bước. Dữ liệu huấn luyện lấy từ 50 bộ dữ liệu âm thanh mã nguồn mở, sau khi loại bỏ tiếng ồn và chọn lọc chất lượng, tổng cộng đạt 580.000 giờ. Trong các thử nghiệm trên 24 ngôn ngữ, độ tương đồng giọng nói và khả năng hiểu đều vượt qua nhiều hệ thống thương mại, trong thử nghiệm trên 102 ngôn ngữ, khả năng hiểu gần như hoặc vượt cả ghi âm thật. Ngoài clone giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng dựa trên mô tả văn bản, tự động giảm tiếng ồn của âm thanh tham khảo có tiếng ồn.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
605.6K Phổ biến
#
BTCPullback
106.33M Phổ biến
#
IsraelStrikesIranBTCPlunges
44K Phổ biến
#
CLARITYActStalled
3.29M Phổ biến
#
CryptoStocksRally
1.52M Phổ biến

Ghim

sơ đồ trang web

Xiaomi mở nguồn OmniVoice: một mô hình phủ sóng giọng nói clone của 646 loại ngôn ngữ

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Ghim