Tất cả tin tức AI
Tin tức AI · Claude

Open-ended +50pt

X (Twitter) — @AnthropicAI

Đa số benchmark coding hiện tại (HumanEval, SWE-bench) đều có ground truth rõ ràng — đáp án đúng/sai dễ chấm điểm. Nhưng trong thế giới thực, lập trình hiếm khi có đáp án chuẩn. Đây là vùng mà Claude vừa lập kỷ lục.

Bước nhảy 50 điểm

On open-ended coding problems where answers are unclear, Claude's success rate is now 76%—a 50 point jump in just 6 months. Many engineers also say Claude's code quality is now on par with human code; we expect it to be better within the year.

— @AnthropicAI

Open-ended coding là gì?

Là loại task không có function signature cố định, không có test case "đúng/sai". Ví dụ: "Refactor module thanh toán để dễ thêm payment provider mới" — không có một đáp án đúng duy nhất, mà là dải các kiến trúc hợp lý. Đo lường yêu cầu chuyên gia đánh giá thủ công, tốn kém nhưng phản ánh sát task production.

Ý nghĩa thực tế

Cho dev VN

Nếu bạn vẫn dùng Claude chỉ để hỏi "viết hàm sort này", bạn đang dùng dưới 20% năng lực. Thử giao task open-ended: "thiết kế lại module auth cho phép Magic Link + OAuth"; "đề xuất 3 cách scale Redis cache lên 10x traffic". Đây mới là vùng Claude tỏa sáng năm 2026.

Nguồn gốc: X (Twitter) — @AnthropicAIBài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.