Con tàu hướng đến tương lai đang được gia tốc



Mấy ngày nay, mô hình Sora của OpenAI đang chiếm "splotlight". Giới chuyên môn vẫn còn đang cãi nhau về việc mô hình Sora có một "thế giới quan" (world model) hay không nhưng chúng ta sẽ phải mất thời gian để được sử dụng một cách chính thức.

Greg Brockman đã giới thiệu khả năng đa phương thức (multimodality) của GPT-4 vào trung tuần tháng 3 năm 2023 nhưng phải đến tháng 11 năm ngoái, mọi người mới được sử dụng phiên bản GPT-4 Vision (Mô hình này có thể học cách phân tích các đặc điểm của hình ảnh và sử dụng thông tin đó để trả lời các câu hỏi, tạo văn bản mô tả, hoặc vẽ hình ảnh). Như vậy, người ta cũng tin rằng chúng ta chỉ có thể sử dụng SORA vào cuối năm nay vì OpenAI cũng không muốn rủi ro khi bầu cử Tổng thống Mỹ sắp diễn ra.

Nhưng điều tôi quan tâm hơn là bộ nhớ và tốc độ của mô hình ngôn ngữ lớn (Large Language Model - LLM). Cách đây không lâu, OpenAI cung cấp 128K context windows - khái niệm để chỉ khả năng mà LLM có thể xử lý một lần số lượng các tokens, các từ trong ngôn ngữ tự nhiên- Sau đó Claude 2.1 cho phép xử lý 200k tokens một lần và cách đây một tuần Google đã giới thiệu mô hình Gemini Pro 1.5 với khả năng xử lý 1 triệu tokens, tương đương với khoảng 750.000 từ tiếng Anh.

Một cuốn sách khổ A5, mà có kích thước khoảng 148 x 210 mm, số lượng từ trung bình trên một trang sẽ nằm trong khoảng từ 250 đến 350 từ. 750.000 từ tiếng Anh tương đương 2000 đến 3000 trang sách. Tầm 5,6 cuốn sách dày 400 trang!

Ethan Mollick, GS Wharton, đã phát biểu:

"Tất cả công trình nghiên cứu khoa học của tôi được công bố trước năm 2022 - hơn 1,000 trang PDF trải qua 20 bài báo và sách - và Gemini đã có thể tóm tắt các chủ đề trong công trình của tôi và trích dẫn chính xác từ các bài báo. Không có những hiện tượng ảo giác (hallucination) lớn, chỉ có một số lỗi nhỏ khi nó nhầm lẫn trích dẫn đúng từ tệp PDF sai, hoặc lẫn lộn thứ tự của hai cụm từ trong một tài liệu."

Gemini Pro 1.5 thử nghiệm với cả 10 triệu tokens hay khoảng 20.000 đến 30.000 trang sach! Như vậy, LLM đã có một bộ nhớ khổng lồ để xử lý trong 1 lần! Tất nhiên, về mặt tối ưu thì chưa bằng khả năng của con người đâu nhưng số lượng và độ chính xác đã ăn đứt!

Groq, đã ra mắt con chip của mình, là loại LPU (language Processing Unit), nhằm nhấn mạnh khả năng xử lý ngôn ngữ. Khả năng hệ thống của Groq có thể xử lý 500 tokens/s so với chúng ta đang dùng dịch vụ ChatGPT của OpenAI tầm 25, 50 tokens/s.

Như vậy, các tiến bộ AI đang ngày càng được gia tốc. Chưa bao giờ phát biểu của William Gibson:

“The future is already here – it's just not very evenly distributed.“

lại chính xác đến thế. Nghĩa là tương lại đang được một số nhỏ những cá nhân ưu việt, tập đoàn khổng lồ tiếp cận và đang mang lại những lợi thế to lớn cho bản thân họ.

Ảnh: một ví dụ thú vị của khả năng tìm kiếm theo ngữ nghĩa (semantic search) mà các hệ thống AI đang cung cấp.

share from Facebook Đào Trung Thành,

Post a Comment

Tin liên quan

    Tài chính

    Trung Quốc