Theo Engadget, Meta đã thêm vào hai tính năng mới mang tính đột phá, giúp khả năng dịch giọng nói của AI này trở nên tự nhiên và biểu cảm hơn.
Tính năng đầu tiên, được gọi là "SeamlessExpressive”, giúp chuyển đổi các biểu thức trong lời nói đã dịch. Cụ thể, nó bao gồm cao độ, âm lượng, giai điệu cảm xúc (như phấn khích, buồn bã hoặc thì thầm), tốc độ nói và thời gian nghỉ. Điều này giúp AI tạo ra bản dịch giọng nói có tính biểu cảm cao, tránh được cảm giác máy móc mà nhiều công nghệ dịch thuật trước đây thường gặp.
Các ngôn ngữ được hỗ trợ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp, tiếng Ý và tiếng Trung, mặc dù trang demo thiếu tiếng Ý và tiếng Trung tại thời điểm viết bài này.
Tính năng thứ hai, "SeamlessStreaming”, cho phép AI bắt đầu dịch bài phát biểu theo thời gian thực. Điều này giúp người nghe hiểu nhanh hơn và giảm độ trễ, giảm thời gian chờ đợi.
Theo Meta, thách thức ở đây là các ngôn ngữ khác nhau có cấu trúc câu khác nhau, do đó, phải phát triển một thuật toán dành riêng cho việc nghiên cứu một phần âm thanh đầu vào, để quyết định xem có đủ ngữ cảnh để bắt đầu tạo đầu ra được dịch hay có nên tiếp tục nghe hay không.
Meta hy vọng, những cải tiến này sẽ đem lại trải nghiệm dịch giọng nói chưa từng thấy trước đây và có thể thay đổi cách chúng ta giao tiếp trong tương lai.
Mặc dù chưa có thông báo cụ thể về việc tính năng này sẽ ra mắt công chúng khi nào, nhưng đây chắc chắn là một bước quan trọng trong việc đưa công nghệ dịch thuật lên một tầm cao mới.