Tất cả tin tức AI
Tin tức AI · Claude

Mythos 64% > human

X (Twitter) — @AnthropicAI

Nghiên cứu AI không phải chuỗi công thức tuyến tính — nó là chuỗi quyết định: thử hướng nào, bỏ hướng nào, khi nào quay đầu. Anthropic vừa đo khả năng Claude "đoán bước tiếp theo" và kết quả khá ấn tượng.

Thiết kế thí nghiệm

AI research is a series of next-step decisions. We looked at sessions where a human researcher took a wrong turn, showed Claude the session up to that point, and asked it what to do next. Mythos Preview improved on humans 64% of the time — up from 22% in 2024.

— @AnthropicAI

Vì sao đáng chú ý?

Cảnh báo của Anthropic

Dữ liệu test là các session "đã được biết là đi sai" — có thể có bias. Trong R&D thực, người nghiên cứu không biết bước hiện tại có sai hay không cho đến khi đụng tường. Vì vậy con số 64% không có nghĩa AI sẽ thay nhà nghiên cứu, mà là tiềm năng làm "second opinion" trong các checkpoint quan trọng.

Cho viện nghiên cứu và sinh viên VN

Nguồn gốc: X (Twitter) — @AnthropicAIBài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.