Tất cả tin tức AI
Tin tức AI · Claude

Opus 4.7 — chia rẽ

X + GitHub + Hacker News (thảo luận cộng đồng)

Đã 2 tháng kể từ khi Claude Opus 4.7 ra mắt. Đủ thời gian cho cộng đồng dev và user nâng cao đưa ra nhận định thực tế — và kết quả gây ngạc nhiên: 4.7 chia X thành hai phe rõ rệt, một bên gọi là "bước nhảy thật", bên kia kêu "đắt mà kém hơn 4.6".

Gốc rễ: 4.7 follow instruction quá literal

Anthropic dịch chuyển định vị model từ "trợ lý hữu ích" sang "người vận hành chính xác". Nghĩa là 4.7 làm đúng những gì bạn YÊU CẦU, không suy diễn — tốt cho task có quy trình rõ, nhưng dở cho task mà bạn quen "nói thiếu" và để model tự đoán.

Đây là điểm khen của phe ủng hộ và là điểm phàn nàn của phe phản đối — cùng một bản chất, nhìn từ hai góc khác nhau.

Phe khen: agentic coding "không có đối thủ"

Trên các thread r/ClaudeAI và r/LocalLLaMA, người dùng nâng cao chia sẻ Opus 4.7 hoàn thành những task mà các model trước không nổi:

Benchmark chính thức Anthropic cũng ủng hộ: SWE-bench Verified tăng 6.8 điểm (80.8% → 87.6%), thắng 12/14 benchmark vs 4.6. Đây là con số khó tranh cãi.

Phe chê: tokenizer mới đốt thêm 12-18%

Vấn đề lớn nhất nằm ở khía cạnh thường bị bỏ qua: chi phí. Theo các review độc lập (MindStudio, DevToolPicks), tokenizer mới của 4.7 đếm token nhiều hơn 12-18% cho cùng workload. Cộng thêm việc 4.7 verbose hơn, bill API thực tế có thể tăng 30-50%.

Trên GitHub Issues và X, dev kể nhiều case 4.7 "nói đã đọc tài liệu" nhưng output không liên quan — tức là model claim verified mà thực tế chưa verify. Điều này đặc biệt ngược với marketing message của Anthropic.

"Confidently wrong" — chỉ trích phổ biến nhất

Cụm từ "confidently wrong" xuất hiện nhiều trên Hacker News và X khi nói về 4.7. Nghĩa là model đưa ra giải pháp sai NHƯNG VỚI sự tự tin cao — khó phát hiện hơn các sai lầm "rõ ràng" của model cũ. Đây là pattern nguy hiểm cho production.

Khuyến nghị cho dev VN

Bạn đang viết Claude app mới

Dùng 4.7. Học cách prompt literal — coi câu lệnh như "hợp đồng" với AI thay vì "gợi ý". Đầu tư prompt engineering nghiêm túc sẽ phát huy khả năng cao nhất của 4.7.

App production đang dùng 4.6 ổn định

Khoan switch. A/B test kỹ ở 10-20% traffic trước. Đo cả chi phí (token count + verbose level) lẫn quality (sai sót, hallucination). Có thể bạn không cần upgrade.

Dùng Claude Code cho cá nhân

Thử 4.7. Đa số feedback tích cực cho task refactor lớn. Cá nhân ít chịu tác động chi phí.

Pipeline tự động hoá / batch job

Tính lại budget. Chi phí có thể tăng 30-60%. Nếu task vốn đơn giản, cân nhắc dùng Sonnet/Haiku 4.7 thay vì Opus.

Insight cuối: cộng đồng VN nên đầu tư prompt engineering

Nếu cộng đồng VN còn quen "trò chuyện thoải mái" với AI, đây là tín hiệu rõ: thế hệ model sắp tới sẽ ngày càng "nghiêm túc" hơn. Đầu tư học prompt engineering ngay là quyết định đúng — không chỉ cho Claude mà cho mọi model frontier khác đang theo cùng hướng.

Nguồn gốc: X + GitHub + Hacker News (thảo luận cộng đồng)Bài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.