Đa số benchmark coding hiện tại (HumanEval, SWE-bench) đều có ground truth rõ ràng — đáp án đúng/sai dễ chấm điểm. Nhưng trong thế giới thực, lập trình hiếm khi có đáp án chuẩn. Đây là vùng mà Claude vừa lập kỷ lục.
Bước nhảy 50 điểm
On open-ended coding problems where answers are unclear, Claude's success rate is now 76%—a 50 point jump in just 6 months. Many engineers also say Claude's code quality is now on par with human code; we expect it to be better within the year.
Open-ended coding là gì?
Là loại task không có function signature cố định, không có test case "đúng/sai". Ví dụ: "Refactor module thanh toán để dễ thêm payment provider mới" — không có một đáp án đúng duy nhất, mà là dải các kiến trúc hợp lý. Đo lường yêu cầu chuyên gia đánh giá thủ công, tốn kém nhưng phản ánh sát task production.
Ý nghĩa thực tế
- Code review: Claude đã đáng tin để gợi ý kiến trúc, không chỉ syntax.
- Architectural decision: model dần thành "second opinion" cho senior dev.
- Pair-programming với non-engineer: PM, designer có thể "tự code" task vừa.
- Cảnh báo: ở giai đoạn quyết định quan trọng (chọn database, message queue), vẫn cần human-in-the-loop.
Cho dev VN
Nếu bạn vẫn dùng Claude chỉ để hỏi "viết hàm sort này", bạn đang dùng dưới 20% năng lực. Thử giao task open-ended: "thiết kế lại module auth cho phép Magic Link + OAuth"; "đề xuất 3 cách scale Redis cache lên 10x traffic". Đây mới là vùng Claude tỏa sáng năm 2026.