Các thiết bị thông minh của chúng ta nhận lệnh thoại từ chúng ta, kiểm tra nhịp tim, theo dõi giấc ngủ, dịch văn bản, gửi cho chúng ta lời nhắc nhở, chụp ảnh và quay phim, đồng thời cho phép chúng ta nói chuyện với gia đình và bạn bè ở khắp các lục địa.

Bây giờ hãy tưởng tượng đến việc tăng cường những khả năng đó của nó. Hoạt động trao đổi ngôn ngữ tự nhiên, chuyên sâu về các thắc mắc có tính học thuật hoặc giữa các cá nhân; quản lý các dấu hiệu quan trọng của chúng ta thông qua cơ sở dữ liệu toàn cầu để kiểm tra các vấn đề sức khỏe sắp xảy ra; đóng gói cơ sở dữ liệu khổng lồ để cung cấp bản dịch toàn diện theo thời gian thực giữa hai hoặc nhiều bên đang nói các ngôn ngữ khác nhau; và hội thoại bằng phần mềm GPS để cung cấp thông tin chi tiết về bánh mì kẹp thịt ngon nhất, phim ảnh hay, khách sạn đẹp hay các điểm ngắm người qua lại dọc theo tuyến đường đi của bạn.

Khai thác sức mạnh của các mô hình ngôn ngữ lớn và xử lý ngôn ngữ tự nhiên, chúng tôi đã chứng kiến sự tiến bộ to lớn trong giao tiếp giữa chúng ta và công nghệ mà chúng ta ngày càng đang dựa vào trong cuộc sống hàng ngày.

Nhưng có một trở ngại khi nói đến trí tuệ nhân tạo (AI) và các thiết bị di động của chúng ta. Các nhà nghiên cứu tại Apple cho biết họ sẵn sàng làm điều gì đó để giải quyết vấn đề này.

Vấn đề là bộ nhớ. Các mô hình ngôn ngữ lớn cần rất nhiều bộ nhớ. Với những mẫu máy yêu cầu lưu trữ hàng trăm tỷ thông số, những điện thoại thông minh được sử dụng phổ biến như iPhone 15 của Apple với bộ nhớ 8GB ít ỏi sẽ không thể đáp ứng được nhiệm vụ này.

Trong một bài báo được tải lên arXiv vào ngày 12 tháng 12 năm 2023, Apple thông báo họ đã phát triển một phương pháp sử dụng việc truyền dữ liệu giữa bộ nhớ flash và DRAM để cho phép thiết bị thông minh chạy hệ thống AI mạnh mẽ.

Các nhà nghiên cứu cho biết quy trình của họ có thể chạy các chương trình AI có kích thước gấp đôi dung lượng DRAM của thiết bị và tăng tốc hoạt động của CPU lên tới 500%. Họ nói rằng các quy trình GPU có thể được tăng tốc gấp 25 lần so với các phương pháp hiện tại.

Các nhà nghiên cứu cho biết trong bài báo có tiêu đề "LLM in a flash: Efficient Large Language Model Inference with Limited Memory": Phương pháp của chúng tôi liên quan đến việc xây dựng mô hình chi phí suy luận hài hòa với hành vi của bộ nhớ flash, hướng dẫn chúng tôi tối ưu hóa ở hai lĩnh vực quan trọng: giảm khối lượng dữ liệu được luân chuyển từ flash và đọc dữ liệu thành các khối lớn hơn, liền kề hơn.

Hai kỹ thuật họ đã sử dụng là:

1. Windowing, giúp cắt giảm lượng dữ liệu cần trao đổi giữa bộ nhớ flash và RAM. Điều này được thực hiện bằng cách tái sử dụng kết quả từ các phép tính xử lý dữ liệu ngay trước đó, giảm thiểu tối đa yêu cầu IO và tiết kiệm năng lượng cũng như thời gian.

2. Row-Column Bundling, đạt được hiệu quả cao hơn bằng cách xử lý các khối dữ liệu lớn hơn cùng một lúc từ bộ nhớ flash của thiết bị.

Các nhà nghiên cứu cho biết, hai quá trình này "cùng nhau góp phần giảm đáng kể tải dữ liệu và tăng hiệu quả sử dụng bộ nhớ.  Bước đột phá này đặc biệt quan trọng để triển khai mô hình ngôn ngữ lớn (LLM) tiên tiến trong môi trường hạn chế về tài nguyên nền tảng thiết bị, nhờ đó mở rộng khả năng ứng dụng và khả năng tiếp cận của chúng”.

Trong một bước đột phá khác gần đây, Apple thông báo rằng họ đã thiết kế một chương trình có tên HUGS có thể tạo hình đại diện hoạt hình chỉ từ một đoạn video có giá trị vài giây được quay từ một ống kính duy nhất. Các chương trình tạo avatar hiện tại yêu cầu nhiều góc nhìn camera. Báo cáo "HUGS: Human Gaussian Splats" đã được đăng trên arXiv ngày 29/11/2023.

Theo Apple, chương trình của họ có thể tạo ra các hình đại diện nhảy múa thực tế chỉ trong 30 phút, ngắn hơn nhiều so với hai ngày cần thiết đối với các phương pháp phổ biến hiện nay.

Nguồn từ trang web:vista.gov.vn.của cục thông tin KH&CN quốc gia