Phản ứng dữ dội đối với dữ liệu lớn

Photo courtesy Thierry Gregorius.
‘Nhảm nhí’, ‘Phóng đại’, “Vớ vẩn’, đó là những gì các giáo sư đại học Cambridge hay những nhà nghiên cứu đại học Havard và cả chiến lược gia trưởng (chief number-cruncher) cho chiến dịch tái đắc cử của Tổng thống Obama nói về ‘dữ liệu lớn’ (big data). Chỉ cách đây vài năm, hầu như chẳng mấy ai biết đến, còn ngày nay, không thể tránh khỏi việc được ứng dụng ở khắp nơi, nên giới trí thức thời đại số (digerati, kết hợp 2 từ digital và literati) rất thích thú trong việc chỉ trích dữ liệu lớn. Wired, Time, Harvard Business Review và các ấn phẩm khác đang tỏ ra (fall over themselves) vui mừng thái quá trước sự thất bại của dữ liệu lớn (dance on its grave). ‘Dữ liệu lớn: chúng ta đang sai lầm?’ Thời báo Tài chính viết. ‘Tám (không phải, mà là Chín!) vấn đề với Dữ liệu Lớn, tờ New York Times đưa tin. Vì sao lại có phản ứng như vậy?

Dữ liệu lớn đề cập tới ý tưởng về việc xã hội có thể sử dụng một khối dữ liệu lớn để làm những việc mà không thể thực hiện được nếu chỉ có ít dữ liệu. Thuật ngữ này lần đầu được dùng cách đây 10 năm dành cho các bộ dữ liệu lớn trong các lĩnh vực: vật lý học thiên thể (astrophysic), nghiên cứu gen, các cỗ máy tìm kiếm trên internet, và cả các hệ thống học máy (như nhận diện giọng nói và dịch) chỉ có thể hoạt động tốt khi xử lý khối lượng dữ liệu đủ lớn. Giờ đây thuật ngữ này dùng để chỉ việc ứng dụng thống kê và phân tích dữ liệu trong các lĩnh vực mới như bán lẻ, quản trị nhân lực. Các phản ứng đối với dữ liệu lớn nảy sinh từ giữa tháng Ba, bắt đầu từ một bài báo trên tạp chí Science của David Lazer và một số học giả khác thuộc Đại học Havard và Đại học Northeastern. Bài báo chỉ ra rằng Google Flu Trends - một dự án năm 2009 nhằm xác định dịch cúm chỉ bằng các từ khóa tìm kiếm – cũng là ví dụ điển hình (poster-child) về dữ liệu lớn trong suốt 4 năm hoạt động đã tính toán số ca mắc cúm nhiều hơn nhiều so với ghi nhận từ các Trung tâm Kiểm soát Bệnh dịch. Vì vậy, càng nhiều người phản đối ý tưởng dữ liệu lớn.

Các chỉ trích chủ yếu tập trung ở ba lĩnh vực, không thuộc về bản chất dữ liệu lớn, mà là đặc tính của việc phân tích dữ liệu, và cũng có ý đúng. Trước tiên, có những thiên lệch trong bản thân dữ liệu mà không nên bỏ qua. Hiển nhiên là như vậy. Thứ hai, một vài người ủng hộ dữ liệu lớn cho rằng lý thuyết (ví dụ các mô hình khái quát về hoạt động của cả thế giới) đã lỗi thời. Trên thực tế, cần có kiến thức về đối tượng-khu vực ngay cả khi xử lý các bộ dữ liệu lớn. Thứ ba, vấn đề tương quan giả (spurious correlation) – những mối liên hệ có ý nghĩa lớn về mặt thống kê nhưng ít khi xảy ra – xuất hiện nhiều hơn khi lượng dữ liệu tăng. Mặc dù có những kỹ thuật thống kê mới có thể xác định và loại bỏ (banish) các tương quan giả, chẳng hạn như chạy nhiều bài kiểm tra từng bộ dữ liệu nhỏ, nhưng đây vẫn luôn là vấn đề đáng quan tâm.

Nói cách khác, những người phản đối (naysayer) có cái lý riêng. Tuy nhiên, các chỉ trích này cũng không có nghĩa là phân tích dữ liệu lớn chẳng đem lại lợi ích gì. Ngay cả các nhà nghiên cứu của đại học Harvard từng cho rằng dữ liệu lớn là ‘phóng đại’ cũng thừa nhận trên tạp chí Science rằng kết hợp phân tích Google Flu Trends với dữ liệu của CDC đã giúp cải thiện dữ báo chung, cho thấy trên thực tế dữ liệu lớn có thể là một công cụ hữu dụng. Và nghiên cứu trên tạp chí PLOS Computational Biology (ứng dụng tin học trong sinh học – Public Library of Science) ngày 17 tháng Tư vừa qua chỉ ra rằng có thể ước tính tình trạng phát tán của bệnh cúm dựa trên số lượt ghé thăm các bài viết Wikipedia liên quan đến căn bệnh này. Có thể thấy, đằng sau phản ứng dữ dội đối với dữ liệu lớn là chu trình truyền thông truyền thống khi những người khởi xướng một công nghệ nào đó đưa ra những tuyên bố to tát và hứng chịu chỉ trích của dư luận (people sling arrows) khi những lời hứa này không thành hiện thực. Tuy nhiên, cuối cùng thì công nghệ đó lại làm thay đổi thế giới, dù không nhất thiết giống với cách mà các chuyên gia dự đoán. Điều này đã xảy ra trước đây, đối với web, tivi, đài phát thanh, phim ảnh và máy điện báo. Giờ đến lượt dữ liệu lớn phải đối mặt với những chỉ trích mà thôi.

Phương Thùy
The Economist

Tags: economics

4 Comments

Tin liên quan

    Tài chính

    Trung Quốc