Chuỗi Markov - Nền tảng toán học của các mô hình ngôn ngữ lớn
Một nhà toán học Nga đã phát minh ra nền tảng toán học đứng sau ChatGPT từ năm 1906, trong lúc cố làm bẽ mặt một linh mục trong cuộc thù địch học thuật. Ông qua đời 16 năm sau mà không hề biết điều gì sẽ đến từ phát minh ấy.
Tên ông là Andrey Markov. Biệt danh của ông là Andrey Cuồng Nộ. Thứ ông xây dựng ban đầu hoàn toàn không nhằm phục vụ ngôn ngữ.
Đây là câu chuyện mà hầu như không ai kể cho bạn.
Nước Nga năm 1905 đang rạn nứt. Chiến tranh Nga - Nhật khiến đất nước kiệt quệ. Cách mạng tràn xuống đường phố. Còn bên trong Viện Hàn lâm Khoa học Đế quốc, 2 nhà toán học đang xâu xé nhau vì một câu hỏi vốn chẳng liên quan gì đến chuyên môn trực tiếp của họ.
Vị linh mục ấy là Pavel Nekrasov, nhà thần học chuyển sang làm toán học, người tin rằng các con số có thể chứng minh thiết kế của Thượng đế. Lập luận của ông như sau: Luật Số Lớn, quy tắc nền tảng của lý thuyết xác suất, chỉ đúng khi các sự kiện độc lập với nhau. Giống như tung đồng xu. Không có mối liên hệ nào giữa các lần tung. Và nếu các quyết định của con người cũng tuân theo mô hình ấy, ông nói, con người hẳn đang đưa ra những lựa chọn thực sự tự do và độc lập. Theo cách diễn giải của ông, toán học chứng minh ý chí tự do. Mà như thế nghĩa là nó chứng minh linh hồn. Và như thế nghĩa là nó chứng minh Thượng đế.
Markov thấy điều đó vừa xúc phạm về mặt nghề nghiệp, vừa khiến ông nổi giận về mặt cá nhân.
Ông là người vô thần quyết liệt, người đã chủ động yêu cầu bị khai trừ khỏi Giáo hội Chính thống Nga bằng cách gửi thư đòi họ xóa tên mình, sau khi giáo hội từ chối công nhận việc khai trừ Tolstoy. Ông không có chút kiên nhẫn nào với điều mà ông gọi là sự lạm dụng toán học. Ý tưởng rằng một linh mục đang dùng lý thuyết xác suất để lén đưa thần học vào khoa học khiến ông tức giận đúng như biệt danh của mình.
Vì thế, ông quyết định phá hủy lập luận ấy.
Chứng minh của ông vừa thanh nhã vừa tàn nhẫn. Ông chỉ ra rằng Luật Số Lớn hoàn toàn không đòi hỏi tính độc lập. Các giá trị trung bình vẫn có thể ổn định ngay cả khi mỗi sự kiện đều liên hệ với sự kiện đứng ngay trước nó. Ý chí tự do không liên quan gì ở đây. Linh hồn cũng không liên quan gì. Toàn bộ cấu trúc thần học của Nekrasov sụp đổ chỉ vì một chi tiết kỹ thuật trong toán học.
Nhưng Markov cần một minh chứng trong thế giới thực. Một thứ cụ thể. Một thứ khiến chứng minh ấy không thể bị bác bỏ.
Ông cầm lên một bản trường ca Eugene Onegin của Alexander Pushkin.
Không phải để đọc. Mà để đếm.
Ông ngồi trong phòng làm việc ở St. Petersburg và chép ra 20.000 chữ cái đầu tiên của bài thơ thành một chuỗi liên tục, loại bỏ mọi khoảng trắng và dấu câu cho đến khi văn bản chỉ còn là một dòng ký tự thô. Rồi ông bắt đầu đếm. Nguyên âm hay phụ âm. Cái gì đi sau cái gì. Bao lâu thì một nguyên âm theo sau một nguyên âm. Bao lâu thì một phụ âm theo sau một nguyên âm. Hết tuần này sang tuần khác, từng chữ cái một, bằng tay.
Điều ông phát hiện là các chữ cái phụ thuộc rất sâu vào nhau. Một nguyên âm có xác suất đi sau một phụ âm cao hơn nhiều so với đi sau một nguyên âm khác. Chuỗi ấy không ngẫu nhiên. Mỗi chữ cái chịu ảnh hưởng của chữ cái đứng trước nó. Vậy mà trên toàn bộ 20.000 chữ cái, tần suất tổng thể của nguyên âm vẫn hội tụ về một con số ổn định. Sự phụ thuộc và tính đều đặn thống kê có thể cùng tồn tại.
Nekrasov đã sai. Toán học vẫn vận hành mà không cần tính độc lập. Ý chí tự do không ẩn náu bên trong lý thuyết xác suất. Markov đã chứng minh điều đó trên lưng một bài thơ tình.
Ông gọi cấu trúc mình phát hiện là một chuỗi. Ngày nay, chúng ta gọi đó là chuỗi Markov.
Ý tưởng này đủ đơn giản để giải thích trong một câu: trạng thái tiếp theo của một hệ thống chỉ phụ thuộc vào trạng thái hiện tại của nó, chứ không phụ thuộc vào toàn bộ những gì đã xảy ra trước đó. Mỗi bước chỉ mang vừa đủ ký ức để đi tiếp bước sau. Không hơn.
Điều Markov không thể tưởng tượng là ý tưởng ấy rồi sẽ trở thành gì.
Mọi mô hình ngôn ngữ tồn tại ngày nay đều được xây dựng trên đúng logic này. Khi ChatGPT đọc câu lệnh của bạn và tạo ra từ tiếp theo, nó đang thực hiện một phiên bản tinh vi hơn rất nhiều của đúng điều Markov từng làm với các chữ cái của Pushkin. Nó nhìn vào trạng thái hiện tại của cuộc trò chuyện và tính toán điều gì nên xuất hiện tiếp theo, dựa trên các mẫu hình trong mọi thứ mà nó đã được huấn luyện. Trực giác toán học cốt lõi — rằng các chuỗi có cấu trúc, rằng phần tử tiếp theo phụ thuộc vào những gì đứng trước, rằng ta có thể mô hình hóa ngôn ngữ như một chuỗi các xác suất phụ thuộc — là của Markov. Nó đã là của Markov từ năm 1913.
Bài báo của ông về Eugene Onegin được trình bày trước Viện Hàn lâm Khoa học Đế quốc ngày 23 tháng 1 năm 1913. Khán giả là các nhà toán học. Bối cảnh là một cuộc tranh luận về ý chí tự do. Không ai trong căn phòng ấy nghĩ đến máy tính. Khi đó chưa có máy tính. Chiếc máy tính điện tử đầu tiên phải 3 thập kỷ nữa mới xuất hiện.
Ông qua đời năm 1922, 9 năm sau bài báo ấy, trong những hỗn loạn đầu tiên của thời kỳ Xô viết. Ông 66 tuổi. Ông đã sống những năm cuối đời chứng kiến Sa hoàng sụp đổ, cách mạng nổi lên, và đất nước của mình biến thành một thứ không còn nhận ra được. Ông chưa bao giờ thấy bóng bán dẫn. Ông chưa bao giờ hình dung một cỗ máy có thể xử lý ngôn ngữ. Ông nghĩ mình chỉ vừa dàn xếp xong một cuộc tranh luận với một linh mục.
Cuộc tranh luận mà ông thực sự dàn xếp lại là cuộc tranh luận khi ấy chưa ai đặt ra.
Ngày nay, các chuỗi của ông nằm bên trong mọi công cụ tìm kiếm, mọi trợ lý giọng nói, mọi bộ lọc thư rác, mọi tính năng tự động hoàn thành. Bài báo năm 2024 Large Language Models as Markov Chains chính thức chỉ ra điều mà giới thực hành đã ngầm biết suốt nhiều thập kỷ: cơ chế suy luận của GPT-4, Claude và Gemini có thể được đặc trưng như một chuỗi Markov vận hành trên các chuỗi token. Toán học là của ông. Cái tên trên bài báo là của người khác.
Có một phiên bản khác của câu chuyện này, trong đó Nekrasov thắng cuộc tranh luận. Trong đó Markov quyết định vị linh mục kia không đáng để ông mất thời gian. Trong đó không ai ngồi đếm 20.000 chữ cái trong một bài thơ chỉ để giải quyết một cuộc tranh cãi thần học.
Trong phiên bản ấy, chuỗi kia không bao giờ được phát minh. Hoặc nó được phát minh muộn hơn, bởi một người khác, vì những lý do khác, trên một dòng thời gian khác.
Nhưng chúng ta có phiên bản này. Nhà vô thần cuồng nộ. Bài thơ tình. Nhiều tuần ngồi đếm. Chứng minh đã phá hủy thần học của một người và vô tình trao cho thế kỷ 21 công cụ toán học quan trọng nhất của nó.
Nekrasov muốn tìm thấy Thượng đế trong những con số.
Thứ ông tìm thấy lại là Markov. Và Markov tìm thấy một điều mà cả hai người họ đều không đi tìm.
shared from Facebook Md Ismail Sojal,
Tags: artificial intelligence


2 Comments