Toàn thế giới sắp cạn dữ liệu để nuôi trí tuệ nhân tạo

Anh Vũ |

Trong bối cảnh trí tuệ nhân tạo (AI) trở nên phổ biến, các chuyên gia đặt ra một cảnh báo nghiêm túc: Thế giới có thể sắp hết dữ liệu để "nuôi" AI, đặt ra những thách thức lớn cho sự phát triển của các mô hình AI, đặc biệt là trong lĩnh vực ngôn ngữ và có thể thay đổi hướng đi của cách mạng AI.

Mặc dù ngành công nghiệp AI đã đào tạo trên các bộ dữ liệu ngày càng lớn, nhưng nghiên cứu cho thấy, kho dữ liệu trực tuyến không tăng tốc như tốc độ đào tạo AI hiện tại. Một số dự đoán thậm chí cho biết, chúng ta có thể cạn kiệt dữ liệu văn bản chất lượng cao trước năm 2026 nếu xu hướng hiện tại tiếp tục.

Chất lượng dữ liệu đào tạo là chìa khóa quan trọng với các AI. Để huấn luyện các mô hình AI mạnh mẽ, chính xác, chúng ta cần lượng lớn dữ liệu. Ví dụ, ChatGPT đã sử dụng 570 gigabyte văn bản, tương đương với khoảng 300 tỉ từ.

Tuy nhiên, không chỉ số lượng, chất lượng của dữ liệu đào tạo cũng rất quan trọng. Dữ liệu chất lượng thấp như từ mạng xã hội hoặc ảnh mờ có thể dẫn đến kết quả đầu ra không chính xác hoặc chất lượng thấp.

Ngoài ra, dữ liệu có thể mang tính thiên vị và có thông tin sai lệch, gây ra vấn đề như khi Microsoft đào tạo bot AI của mình bằng nội dung Twitter, dẫn đến kết quả phân biệt chủng tộc và khinh thường phụ nữ.

Các nhà phát triển AI đang tìm kiếm nguồn dữ liệu chất lượng cao từ sách, bài báo trực tuyến, Wikipedia và nội dung web được lọc, nhằm tránh những vấn đề của dữ liệu không chất lượng.

Mặc dù tình hình có vẻ lo lắng, nhưng còn nhiều khía cạnh chưa biết về cách mô hình AI sẽ phát triển trong tương lai và có nhiều cách để giải quyết vấn đề nguy cơ thiếu dữ liệu, bao gồm cải thiện thuật toán, sử dụng ít dữ liệu hơn và sử dụng AI để tạo dữ liệu tổng hợp.

Anh Vũ
TIN LIÊN QUAN

Trí tuệ nhân tạo giúp chăm sóc sức khoẻ chất lượng cao hơn, giá rẻ hơn

NGUYỄN ĐĂNG |

Google nhấn mạnh rằng thế hệ tiếp theo của AI (trí tuệ nhân tạo) và mô hình ngôn ngữ lớn (LLM) hứa hẹn mang lại dịch vụ chăm sóc và sức khỏe chất lượng cao hơn, giá cả phải chăng và tạo ra sự công bằng cho mọi người trên khắp thế giới.

Elon Musk chuẩn bị tích hợp trí tuệ nhân tạo mới vào mạng xã hội X

Anh Vũ |

Grok, chatbot mới của công ty trí tuệ nhân tạo xAI do Elon Musk sáng lập, sẽ được phát hành dành cho người dùng trả phí của X.

Mỹ công bố các bước hạn chế rủi ro của trí tuệ nhân tạo

Anh Vũ |

Phó Tổng thống Mỹ Kamala Harris sẽ phát biểu và công bố các biện pháp hạn chế rủi ro của công nghệ trí tuệ nhân tạo (AI) tại Hội nghị Thượng đỉnh toàn cầu ở London (Anh).

Kê biên khối bất động sản khủng của bà chủ Xuyên Việt Oil

Việt Dũng |

Mai Thị Hồng Hạnh - bà chủ Công ty Xuyên Việt Oil - bị cáo buộc gây thiệt hại hơn 1.400 tỉ đồng nên cơ quan chức năng đã kê biên hàng chục bất động sản.

Cấp dưới Trương Mỹ Lan khai: Không ngờ hậu quả quá lớn

Tú Tâm |

TPHCM - Tại phiên xử Trương Mỹ Lan giai đoạn 2, trong phần thẩm vấn, nhiều cấp dưới thừa nhận hành vi như cáo trạng truy tố.

Sắp triển khai một tuyến đường sắt qua Bình Dương

Xuyên Đông |

Ngày 20.9, Bộ Giao thông Vận tải cho biết, sẽ triển khai một tuyến đường sắt qua Bình Dương trong năm 2025.

Lào Cai phạt quán ăn tăng giá bất thường mùa mưa lũ

Đinh Đại |

Lực lượng chức năng tỉnh Lào Cai đã tiến hành lập biên bản và xử phạt cơ sở kinh doanh dịch vụ ăn uống tại huyện Bảo Thắng.

Trường sạt lở nghiêm trọng, hàng trăm học sinh Thanh Hóa nghỉ học

QUÁCH DU |

Thanh Hóa - Do ảnh hưởng của mưa bão, một trường học đang xây dựng thì bị sạt lở nghiêm trọng. Ngay sau đó, ngành chức năng đã cho toàn bộ học sinh nghỉ học.