Toàn thế giới sắp cạn dữ liệu để nuôi trí tuệ nhân tạo

Anh Vũ | 12/11/2023 11:01

Trong bối cảnh trí tuệ nhân tạo (AI) trở nên phổ biến, các chuyên gia đặt ra một cảnh báo nghiêm túc: Thế giới có thể sắp hết dữ liệu để "nuôi" AI, đặt ra những thách thức lớn cho sự phát triển của các mô hình AI, đặc biệt là trong lĩnh vực ngôn ngữ và có thể thay đổi hướng đi của cách mạng AI.

Mặc dù ngành công nghiệp AI đã đào tạo trên các bộ dữ liệu ngày càng lớn, nhưng nghiên cứu cho thấy, kho dữ liệu trực tuyến không tăng tốc như tốc độ đào tạo AI hiện tại. Một số dự đoán thậm chí cho biết, chúng ta có thể cạn kiệt dữ liệu văn bản chất lượng cao trước năm 2026 nếu xu hướng hiện tại tiếp tục.

Chất lượng dữ liệu đào tạo là chìa khóa quan trọng với các AI. Để huấn luyện các mô hình AI mạnh mẽ, chính xác, chúng ta cần lượng lớn dữ liệu. Ví dụ, ChatGPT đã sử dụng 570 gigabyte văn bản, tương đương với khoảng 300 tỉ từ.

Tuy nhiên, không chỉ số lượng, chất lượng của dữ liệu đào tạo cũng rất quan trọng. Dữ liệu chất lượng thấp như từ mạng xã hội hoặc ảnh mờ có thể dẫn đến kết quả đầu ra không chính xác hoặc chất lượng thấp.

Ngoài ra, dữ liệu có thể mang tính thiên vị và có thông tin sai lệch, gây ra vấn đề như khi Microsoft đào tạo bot AI của mình bằng nội dung Twitter, dẫn đến kết quả phân biệt chủng tộc và khinh thường phụ nữ.

Các nhà phát triển AI đang tìm kiếm nguồn dữ liệu chất lượng cao từ sách, bài báo trực tuyến, Wikipedia và nội dung web được lọc, nhằm tránh những vấn đề của dữ liệu không chất lượng.

Mặc dù tình hình có vẻ lo lắng, nhưng còn nhiều khía cạnh chưa biết về cách mô hình AI sẽ phát triển trong tương lai và có nhiều cách để giải quyết vấn đề nguy cơ thiếu dữ liệu, bao gồm cải thiện thuật toán, sử dụng ít dữ liệu hơn và sử dụng AI để tạo dữ liệu tổng hợp.

Anh Vũ