Nghiên cứu AI không phải chuỗi công thức tuyến tính — nó là chuỗi quyết định: thử hướng nào, bỏ hướng nào, khi nào quay đầu. Anthropic vừa đo khả năng Claude "đoán bước tiếp theo" và kết quả khá ấn tượng.
Thiết kế thí nghiệm
AI research is a series of next-step decisions. We looked at sessions where a human researcher took a wrong turn, showed Claude the session up to that point, and asked it what to do next. Mythos Preview improved on humans 64% of the time — up from 22% in 2024.
Vì sao đáng chú ý?
- Từ 22% (2024) lên 64% (2026): cú nhảy 3 lần trong 2 năm.
- Anthropic cho biết Mythos Preview đã được dùng nội bộ như "lab partner" cho R&D.
- Đây là tín hiệu AI bắt đầu hữu ích ở giai đoạn ra quyết định, không chỉ thực thi.
- Khả năng "biết khi nào nên quay đầu" là một trong những skill khó nhất với mọi loại agent.
Cảnh báo của Anthropic
Dữ liệu test là các session "đã được biết là đi sai" — có thể có bias. Trong R&D thực, người nghiên cứu không biết bước hiện tại có sai hay không cho đến khi đụng tường. Vì vậy con số 64% không có nghĩa AI sẽ thay nhà nghiên cứu, mà là tiềm năng làm "second opinion" trong các checkpoint quan trọng.
Cho viện nghiên cứu và sinh viên VN
- Sinh viên cao học: dùng Claude như "second reader" cho hướng đề tài.
- Lab AI/ML: setup MCP server đọc paper, lab notebook — hỏi Claude trước khi commit thí nghiệm tốn kém.
- Vẫn cần peer review: Claude là partner, không phải peer reviewer.
- Methodology vẫn của con người: AI chỉ giúp tiết kiệm thời gian ở giai đoạn explore.
Nguồn gốc: X (Twitter) — @AnthropicAI — Bài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.