Vì sao phần mềm nhận diện giọng nói ngày càng hoàn thiện như vậy?

Photo courtesy Johan Larsson.

Suốt một thời gian dài phần mềm nhận diện giọng nói từng rất tệ - điều này càng củng cố nhận định máy tính rất khó thực hiện những việc con người làm dễ dàng và ngược lại. Tuy nhiên gần đây công nghệ này đã hoàn thiện hơn rất nhiều: hầu hết các điện thoại thông minh (smartphone) đời mới đều có nhiều tính năng kích hoạt bằng giọng nói có thể sử dụng được. Các chương trình như Google Now hay Siri của iPhone không chỉ thực hiện những nhiệm vụ giới hạn như tìm nhà hàng hay gọi vào một số điện thoại, smartphone đang ngày càng tiến bộ trong nhận diện giọng nói không theo khuôn mẫu như gửi tin nhắn hay thư điện tử (e-mail). Vì sao mà máy tính lại hiểu những gì chúng ta nói ngày một tốt hơn vậy?

Gần như bất cứ từ nào cũng có thể đứng đầu câu, vì thế từ đầu tiên của một câu có thể là một trong hàng vạn từ. Nếu các từ có khả năng đứng ở bất cứ vị trí nào như nhau, thì có thể có tới 3,2 x 10^21 câu có 5 từ với 20.000 từ cho sẵn. Con số khổng lồ này cùng với chất lượng tín hiệu bị giảm do micro rẻ tiền, tiếng ồn ào xung quanh và (dữ liệu) bị nén khiến việc nhận diện giọng nói là bất khả thi.

Nhưng từ ngữ không xuất hiện theo thứ tự ngẫu nhiên nên máy tính không phải đoán mỗi từ bạn nói ra trong vốn từ 20.000 từ. Thay vào đó phần mềm sẽ đoán khả năng xuất hiện của 1 từ dựa vào các từ xung quanh, tìm kiếm trong các mẫu câu được thống kê trích từ các kho tài liệu số hóa và các lời nói trước đó của người dùng khác. Đằng sau ‘the’ thường không phải một động từ, do đó các khả năng được thu hẹp bớt. Đằng sau ‘Jefferson viết bản tuyên ngôn’ (Jefferson wrote the Declaration of) thì khả năng còn được thu hẹp hơn rất nhiều. Nói ‘một chiếc xe kem đẹp’ (a nice cream truck) ở tốc độ bình thường vào điện thoại và nhiều khả năng nó sẽ trả lại câu nói gần như đồng âm ‘một chiếc xe kem’ (an ice cream truck). Tất cả các từ trong ‘một chiếc xe kem đẹp’ đều hay gặp nhưng sự kết hợp giữa chúng thì không. Smartphones có thể dự đoán tốt hơn nữa bằng cách sử dụng thông tin cá nhân của người dùng như tên người trong danh bạ hay các thành phố gần khu vực của họ.

Các mẫu câu được thống kê như vậy đang là trái tim của mọi loại ứng dụng ngôn ngữ. Một ví dụ là chương trình dịch tự động đời cũ thường chia nhỏ ngữ pháp và nghĩa của một câu và lắp ghép lại ở ngôn ngữ mới. Các hệ thống hiện đại tốt nhất dựa trên khả năng chuyển chính xác một dãy A trong ngôn ngữ gốc sang dãy B trong ngôn ngữ mục tiêu, dựa trên dữ liệu dịch bởi con người mà máy tính được cung cấp. Các mẫu thống kê có thể sửa các lỗi phổ biến và rõ ràng như: nhắn cho một người bạn ‘đang trên đường đống cỏ’. (on the way mow), tuy ‘đồng cỏ’ (mow) là một từ tiếng Anh nhưng một số phần mềm sẽ sửa câu thành ‘đang trên đường tới đây’ (on the way now) vì ‘đồng cỏ’ là một từ tương đối lạ và chẳng bao giờ đứng sau ‘trên đường’ (on the way). Máy tính sẽ ngày càng hữu ích khi chúng học được thêm nhiều về chúng ta cả trên tổng thể lẫn cá nhân. Dần dần, vấn đề đặt ra với người dùng sẽ là: họ sẵn sàng ‘từ bỏ’ (bảo mật) bao nhiêu thông tin cá nhân để đổi lấy những dịch vụ hữu ích và đáng tin cậy hơn.

Đăng Duy
The Economist

Tags: economics

1 Comments

Tin liên quan

    Tài chính

    Trung Quốc