Giải thích khái niệm về AI cho người không chuyên



ChatGPT, GPT-4, Claude, Pi, LLaMa, Mixtral 8x7B là những mô hình ngôn ngữ lớn dựa trên kiến trúc Transformer, do các nhà khoa học Google đề xuất vào năm 2017. GPT (Generative Pre-trained Transformer) là mô hình ngôn ngữ được huấn luyện sơ khởi (pre-trained):

Quá trình huấn luyện sơ khởi (Pretraining):

Trong giai đoạn này, một mô hình ngôn ngữ được huấn luyện trên một lượng dữ liệu rất lớn, thường là hàng tỷ byte từ nhiều nguồn khác nhau. Mục đích của quá trình này là để mô hình "học" ngôn ngữ giúp nó hiểu cách các từ và cụm từ được sử dụng trong ngữ cảnh thực tế, cách xây dựng câu, và nhiều khía cạnh khác của ngôn ngữ.

Kiến thức tích lũy: Trong quá trình huấn luyện này, mô hình tích lũy lượng lớn kiến thức không chỉ về ngôn ngữ mà còn về thế giới - từ sự kiện lịch sử, khoa học, văn hóa, đến thông tin cụ thể về nhiều lĩnh vực khác. Tuy nhiên, kiến thức này phản ánh dữ liệu mà mô hình được huấn luyện, và nó có "ngày chấm dứt huấn luyện kiến thức" (knowledge cutoff date) - tức là mọi thông tin sau thời điểm đó sẽ không được mô hình biết đến. Với phiên bản GPT-4 mới nhất, đó là tháng 4 năm 2023. Những dữ kiện sau thời điểm này mô hình không biết đến và nếu nó trả lời khả năng lớn sẽ "bịa như thật" (hallucination).

Hạn chế của Pretraining: Một trong những hạn chế lớn nhất của quá trình huấn luyện sơ khởi là mô hình không thể cập nhật hoặc học hỏi thông tin mới sau khi quá trình huấn luyện kết thúc. Điều này đặt ra vấn đề khi cần mô hình cung cấp thông tin cập nhật hoặc chính xác trong một lĩnh vực chuyên biệt.

Để giải quyết vấn đề cập nhật kiến thức hay cung cấp kiến thức chuyên biệt của doanh nghiệp, chúng ta muốn LLM (Mô hình ngôn ngữ lớn) học được thông tin mới từ dữ liệu của chính chúng ta, có hai cách chính để làm điều này: Finetuning và RAG (Retrieval Augmented Generation).

🔧Finetuning 🔧: Đây là quá trình tiếp tục huấn luyện mô hình trên lượng dữ liệu chuyên biệt và nhỏ hơn. Tuy nhiên, nghiên cứu gần đây cho thấy Finetuning không thực sự hiệu quả trong việc giúp mô hình học thông tin mới. Finetuning hữu hiệu trong việc huấn luyện các phong cách (style) trả lời, cho ra các định dạng mẫu (vd JSON) mà chúng ta mong muốn.

🔍RAG🔍: Phương pháp này liên quan đến việc kết hợp thông tin từ các nguồn khác nhau khi mô hình đang xử lý một yêu cầu. Trong RAG, chúng ta chia dữ liệu thành các đoạn văn bản nhỏ, sử dụng mô hình nhúng (Embedding model) để xác định vị trí của từng đoạn trong không gian vector, và sau đó khi mô hình nhận được một yêu cầu, một câu hỏi, nó sẽ tìm kiếm (Similarity Search) và sử dụng những đoạn văn bản phù hợp với câu hỏi để tạo ra câu trả lời.

Kết quả từ nghiên cứu mới cho thấy RAG hoạt động tốt hơn Finetuning trong việc giúp mô hình học thông tin mới. Điều này có nghĩa là khi sử dụng RAG, mô hình có khả năng cung cấp thông tin chính xác và cập nhật hơn so với chỉ sử dụng Finetuning.

Tuy nhiên, cũng có ý kiến cho rằng kết hợp cả hai phương pháp, RAG và Finetuning, có thể mang lại hiệu quả trong một số trường hợp nhất định, nhưng không phải lúc nào cũng như vậy.

Ngoài ra, một cách để cải thiện hiệu suất của Finetuning là huấn luyện mô hình trên nhiều cách diễn đạt khác nhau của cùng một thông tin, hay còn gọi là "paraphrases". Điều này giúp mô hình hiểu và nhớ thông tin một cách tốt hơn.

share from Facebook Đào Trung Thành,

Post a Comment

Tin liên quan

    Tài chính

    Trung Quốc