Dù Microsoft và Google đối đầu trong đường đua phân định xem chatbot AI của ai tốt hơn, nhưng đó không phải là cách sử dụng duy nhất cho các mô hình ngôn ngữ và máy học.
Cùng với các kế hoạch được đồn đại là giới thiệu hơn 20 sản phẩm được hỗ trợ bởi trí tuệ nhân tạo trong sự kiện I/O năm nay, Google đang tiến tới mục tiêu xây dựng một mô hình AI hỗ trợ 1.000 ngôn ngữ khác nhau.
Trong bản cập nhật được đăng vào ngày 6.3, Google đã chia sẻ thêm thông tin về Universal Speech Model (USM), một hệ thống mà gã khổng lồ công nghệ mô tả là “bước đầu tiên quan trọng” trong việc thực hiện các mục tiêu của mình.
Tháng 11 năm ngoái, công ty đã công bố kế hoạch tạo ra một mô hình AI hỗ trợ 1.000 ngôn ngữ được sử dụng nhiều nhất trên thế giới, đồng thời tiết lộ mô hình USM của mình.
Google mô tả USM là “một nhóm mô hình giọng nói tiên tiến nhất” với 2 tỉ tham số được đào tạo trên 12 triệu giờ nói và 28 tỉ câu nói đến từ hơn 300 ngôn ngữ khác nhau.
YouTube đã sử dụng USM để tạo phụ đề chi tiết cũng như hỗ trợ nhận dạng giọng nói tự động (ASR). Khả năng này giúp nó tự động phát hiện và dịch các ngôn ngữ, bao gồm tiếng Anh, tiếng Trung Quốc, tiếng Amharic, tiếng Cebuano, tiếng Assam, v.v.
Hiện tại, Google cho biết USM hỗ trợ hơn 100 ngôn ngữ và sẽ đóng vai trò là “nền tảng” để xây dựng một hệ thống mở rộng hơn nữa. Meta đang làm việc trên một công cụ dịch AI tương tự, nhưng vẫn đang ở giai đoạn đầu phát triển.
Công nghệ này có thể được tích hợp trong kính thực tế tăng cường, giống như khái niệm mà Google đã trình diễn trong sự kiện I/O năm ngoái.
Nó có thể phát hiện và cung cấp các bản dịch theo thời gian thực, xuất hiện ngay trước mắt người dùng trong không gian ảo.
Tuy nhiên, công nghệ này dường như vẫn còn hơi xa vời và việc Google trình bày sai ngôn ngữ tiếng Ả Rập trong I/O chứng tỏ nó vẫn cần nhiều thời gian hơn để phát triển.