AI của Microsoft chỉ cần 3 giây để bắt chước giọng nói của bất kỳ ai

Anh Vũ |

Sau DALL-E, trí tuệ nhân tạo giúp tạo ra hình ảnh từ các văn bản, Microsoft đã tung ra VALL-E, AI có thể bắt chước giọng nói của bất kỳ ai.

Microsoft đã cho thấy AI có thể bắt chước bất kỳ giọng nói của con người như thế nào. Được gọi là VALL-E, đây dường như là người anh em của DALL-E AI có khả năng tạo một hình ảnh dựa trên văn bản đã từng được ra mắt trước đây.

Trí tuệ nhân tạo VALL-E có thể bắt chước âm sắc và cách nói của con người bằng cách lắng nghe một người thật nói chuyện trong ba giây. Mặc dù âm thanh vẫn nghe hơi giống giọng của robot, nhưng kết quả nãy vẫn rất ấn tượng.

Microsoft gọi đó là “mô hình ngôn ngữ codec thần kinh”. VALL-E được xây dựng trên nền tảng EnCodec (codec âm thanh sử dụng kỹ thuật máy học), được Meta phát triển cách đây một năm, vào năm 2022.
Chỉ cần nghe giọng nói của một người trong 3 giây là VALL-E đã có thể bắt chước giọng của họ. Ảnh: Gizchina
Chỉ cần nghe giọng nói của một người trong 3 giây là VALL-E đã có thể bắt chước giọng của họ. Ảnh: Gizchina

VALL-E có thể bắt chước giọng nói của bất cứ ai

Các phương pháp chuyển văn bản thành giọng nói khác thường tính đến dạng sóng của âm thanh, nhưng VALL-E lại tạo codec âm thanh riêng biệt từ văn bản và âm thanh. Trên thực tế, nó phân tích âm thanh của một người.

Sau đó, nó chia nhỏ thông tin đó thành các phần riêng biệt (được gọi là “mã thông báo”) thông qua EnCodec. Và cuối cùng, nó sử dụng dữ liệu để “khớp” với những gì nó “đã biết” về giọng nói đó và phát triển các cụm từ khác ngoài mẫu âm thanh thu được.

Trí tuệ nhân tạo của Microsoft được dạy bằng một thư viện đặc biệt, chứa 60.000 giờ nói tiếng Anh từ hơn 7.000 người khác nhau. Các nhà phát triển gợi ý rằng phương pháp này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao.

Chẳng hạn, người dùng có thể sử dụng nó để chỉnh sửa các bản ghi âm giọng nói trong đó có các từ được phép thay đổi. Do đó, người dùng có thể tạo nội dung âm thanh (chẳng hạn như thuyết minh cho sách nói), một cách dễ dàng và “vừa tai” hơn.

Tất nhiên, một công nghệ như vậy cũng có thể mang tới một số mối nguy hiểm nhất định. Không sớm thì muộn, nó sẽ bị lợi dụng và trở thành một công cụ tống tiền. Điều này đã xảy ra với công nghệ Deepfakes trước đây, khi những kẻ xấu sử dụng nó để ghép khuôn mặt người nổi tiếng vào người khác.

Anh Vũ
TIN LIÊN QUAN

Robot luật sư được hỗ trợ bởi trí tuệ nhân tạo đầu tiên trên thế giới

Diễm Quỳnh |

Công ty DoNotPay của Mỹ đã chế tạo ra một “robot luật sư” được hỗ trợ trí tuệ nhân tạo (AI) để bào chữa cho con người trước toà.

Triển lãm CES 2023: Xe nôi trẻ em cũng được trang bị trí tuệ nhân tạo

Anh Vũ |

Chiếc xe thôi dành cho trẻ nhỏ đã được trang bị khả năng tự lái hiện đại với sự giúp đỡ của nhiều camera và công nghệ trí tuệ nhân tạo.

Trí tuệ nhân tạo chuyển văn bản thành hình khối 3D

Anh Vũ |

Không dừng lại ở vẽ tranh từ văn bản, OpenAI vừa tung ra một trí tuệ nhân tạo (AI) với khả năng chuyển văn bản thành hình khối 3D.

Mực nước Thủy điện Hòa Bình ra sao sau mưa lớn?

Minh Nguyễn |

Sau mưa lớn, mực nước ở hồ Thủy điện Hòa Bình tiếp tục dâng cao so với thời điểm đóng cửa xả lũ.

Một học sinh lớp 2 bị xe ôtô cán tử vong trong sân trường

BẢO TRUNG |

Đắk Lắk - Một phụ huynh lái xe ôtô bán tải đã vô tình cán tử vong một nữ học sinh lớp 2 ngay trong sân trường.

Đắk Nông điều động, bổ nhiệm nhiều cán bộ chủ chốt

PHAN TUẤN |

Ban Thường vụ Tỉnh ủy Đắk Nông vừa quyết định điều động, phân công, bổ nhiệm nhiều cán bộ chủ chốt.

Quán cơm bình dân đông khách nhất Hạ Long bị tẩy chay

Nguyễn Hùng |

Quảng Ninh - Ban Tuyên giáo Thành ủy Hạ Long đã có công văn đề nghị các cơ quan chức năng vào cuộc vụ quán Cơm sạch bà Liên bị dư luận đề nghị tẩy chay.

Thượng Hải hứng bão mạnh nhất 75 năm

Thanh Hà |

Bão Bebinca đổ bộ Thượng Hải (Trung Quốc) sáng 16.9 với cường độ bão cấp 1, sức gió vượt qua cơn bão mạnh nhất tấn công thành phố này năm 1949.