Trong bối cảnh trí tuệ nhân tạo (AI) đang phát triển mạnh mẽ trên toàn cầu, việc xây dựng và phát triển các mô hình AI hỗ trợ tiếng Việt trở thành một thách thức lớn. Dù tiếng Việt là ngôn ngữ của hơn 100 triệu người, nhưng bộ dữ liệu tiếng Việt cho AI hiện chỉ chiếm tỷ lệ rất nhỏ, khiến việc áp dụng AI vào đời sống và công việc của người Việt chưa đạt hiệu quả tối ưu. Tuy nhiên, với sự khởi động của Dự án ViGen, Việt Nam đang tiến một bước lớn trong việc tạo ra những bộ dữ liệu tiếng Việt chất lượng cao, nhằm thúc đẩy sự phát triển của AI và trợ lý ảo tại quốc gia này.
Dự án ViGen được khởi xướng trong khuôn khổ Chương trình Thách thức Đổi mới sáng tạo 2025 do Trung tâm Đổi mới sáng tạo Quốc gia (NIC) tổ chức, với mục tiêu phát triển bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn (LLMs). Dự án này không chỉ nhằm tạo ra những bộ dữ liệu lớn, mà còn giúp các mô hình AI hiểu rõ hơn về văn hóa, ngữ cảnh và cách diễn đạt đặc trưng của tiếng Việt.
Được tài trợ và hỗ trợ bởi Meta, NIC, và tổ chức “AI for Vietnam”, ViGen không chỉ là một bước đi quan trọng trong việc nâng cao sự hiện diện của tiếng Việt trong AI mà còn góp phần thúc đẩy kinh tế số tại Việt Nam. Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, từ đó cung cấp nền tảng dữ liệu phong phú cho các mô hình AI hỗ trợ tiếng Việt.
Tiếng Việt, với đặc thù ngữ pháp, từ vựng và các yếu tố văn hóa riêng biệt, gây khó khăn cho việc phát triển các mô hình AI hiệu quả. Mặc dù có hơn 100 triệu người sử dụng, dữ liệu tiếng Việt cho AI hiện chỉ chiếm chưa đến 1% tổng lượng dữ liệu ngôn ngữ được sử dụng trên thế giới. Chính vì thế, các mô hình AI có thể hiểu và sử dụng tiếng Việt vẫn còn hạn chế, không thể truyền tải đầy đủ các giá trị ngữ nghĩa và sắc thái của ngôn ngữ này.
Việc thiếu hụt bộ dữ liệu tiếng Việt chất lượng cao đã khiến cho các mô hình AI khi áp dụng vào thực tế thường thiếu tính tự nhiên và không đạt hiệu quả tối ưu. Dự án ViGen với mục tiêu tạo ra bộ dữ liệu chất lượng sẽ giúp cải thiện tình trạng này, giúp các mô hình AI hiểu rõ hơn về tiếng Việt và phục vụ nhu cầu của người dùng Việt Nam một cách hiệu quả.
Việc phát triển bộ dữ liệu tiếng Việt sẽ mở ra nhiều cơ hội ứng dụng AI vào các lĩnh vực đời sống, đặc biệt là trong các dịch vụ công. Một trong những ứng dụng đáng chú ý là sự xuất hiện của các trợ lý ảo hỗ trợ tiếng Việt, chẳng hạn như trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy AI đã bắt đầu hiện diện trong đời sống người Việt, đặc biệt là trong các công việc quản lý, tư vấn và hỗ trợ khách hàng.
Dự án ViGen cũng góp phần mở rộng khả năng phát triển các mô hình mã nguồn mở như Llama, giúp tạo ra những giải pháp sáng tạo, phù hợp với ngữ cảnh và đặc thù của tiếng Việt. Những giải pháp này có thể hỗ trợ trong các lĩnh vực từ giáo dục, y tế, pháp lý đến các dịch vụ công.
Dự án ViGen là một phần của chiến lược quốc gia nhằm thúc đẩy phát triển AI tại Việt Nam, giúp đất nước này trở thành một cường quốc AI toàn cầu. Với sự hỗ trợ từ các cơ quan chính phủ, các tổ chức nghiên cứu, và các công ty công nghệ như Meta, Việt Nam đang dần xây dựng một nền tảng AI mạnh mẽ, phù hợp với nhu cầu phát triển kinh tế số và chuyển đổi số quốc gia.
Mặc dù vẫn còn nhiều thách thức, như việc xây dựng hệ sinh thái dữ liệu lớn và đảm bảo tính bảo mật, đạo đức trong việc sử dụng AI, nhưng ViGen là bước đi quan trọng trong việc giải quyết các vấn đề này, đồng thời mở ra cơ hội cho Việt Nam trong việc phát triển và ứng dụng AI vào thực tiễn.
Dự án ViGen là một sáng kiến quan trọng trong việc phát triển bộ dữ liệu tiếng Việt chất lượng cao, giúp nâng cao hiệu quả của các mô hình AI và trợ lý ảo hỗ trợ tiếng Việt. Sự thành công của dự án không chỉ giúp cải thiện khả năng sử dụng tiếng Việt trong AI mà còn mở ra cơ hội lớn cho sự phát triển của kinh tế số tại Việt Nam. Đây là một bước tiến quan trọng trong việc hiện thực hóa tiềm năng của trí tuệ nhân tạo tại Việt Nam, đưa đất nước này gần hơn với mục tiêu trở thành cường quốc AI toàn cầu.
Nguồn: P.A.T - NASATI (tổng hợp)