Claude đạt 76% trên bài toán coding mở — tăng 50 điểm chỉ trong 6 tháng

Đa số benchmark coding hiện tại (HumanEval, SWE-bench) đều có ground truth rõ ràng — đáp án đúng/sai dễ chấm điểm. Nhưng trong thế giới thực, lập trình hiếm khi có đáp án chuẩn. Đây là vùng mà Claude vừa lập kỷ lục.

Bước nhảy 50 điểm

On open-ended coding problems where answers are unclear, Claude's success rate is now 76%—a 50 point jump in just 6 months. Many engineers also say Claude's code quality is now on par with human code; we expect it to be better within the year.

— @AnthropicAI

Open-ended coding là gì?

Là loại task không có function signature cố định, không có test case "đúng/sai". Ví dụ: "Refactor module thanh toán để dễ thêm payment provider mới" — không có một đáp án đúng duy nhất, mà là dải các kiến trúc hợp lý. Đo lường yêu cầu chuyên gia đánh giá thủ công, tốn kém nhưng phản ánh sát task production.

Ý nghĩa thực tế

Code review: Claude đã đáng tin để gợi ý kiến trúc, không chỉ syntax.
Architectural decision: model dần thành "second opinion" cho senior dev.
Pair-programming với non-engineer: PM, designer có thể "tự code" task vừa.
Cảnh báo: ở giai đoạn quyết định quan trọng (chọn database, message queue), vẫn cần human-in-the-loop.

Cho dev VN

Nếu bạn vẫn dùng Claude chỉ để hỏi "viết hàm sort này", bạn đang dùng dưới 20% năng lực. Thử giao task open-ended: "thiết kế lại module auth cho phép Magic Link + OAuth"; "đề xuất 3 cách scale Redis cache lên 10x traffic". Đây mới là vùng Claude tỏa sáng năm 2026.

Nguồn gốc: X (Twitter) — @AnthropicAI — Bài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.

Tác giả: Matrix Academy · 04/06/2026

Open-ended +50pt

Bước nhảy 50 điểm

Open-ended coding là gì?

Ý nghĩa thực tế

Cho dev VN