Tất cả tin tức AI
Tin tức AI · Claude

Fable 5 system prompt leak

X (Twitter) — @NFTCPS, @smalkalbani; GitHub repo CL4R1T4S (26.4k stars)

Có những loại document mà các công ty AI bảo vệ kỹ hơn cả mã nguồn: system prompt. Đó là "kim chỉ nam" mà mỗi câu hỏi của user phải đi qua trước — quyết định model sẽ trả lời thế nào, viết kiểu gì, được phép gì, bị cấm gì. Anthropic dày công viết system prompt cho dòng Claude. Họ giữ nó kín. Cho đến khi Pliny the Liberator vào cuộc.

Pliny the Liberator và repo CL4R1T4S

Pliny là một nhân vật quen mặt trong giới prompt engineering. Repo CL4R1T4S của anh trên GitHub hiện 26.400 sao. Trước đây Pliny đã "leak" system prompt của ChatGPT, Gemini, Grok, Cursor, Perplexity, và một số tool kín hơn. Phương pháp luôn giống nhau: dùng prompt injection khéo léo, ép model in ra chính system prompt của mình — coi đó là một dạng "civil disobedience" cho minh bạch AI.

Sự kiện lớn: System prompt đầy đủ của Claude Fable 5 vừa bị bóc trần và ném lên GitHub. Anthropic ra Fable 5 ngày 9/6, chưa đầy 24 giờ sau, toàn bộ prompt đã bị leak. 120 nghìn ký tự, 1.585 dòng, hơn 27 nghìn token, toàn bộ lệnh ẩn được phơi bày.

— @NFTCPS (Tóm tắt tiếng Trung của @NFTCPS)

Những phát hiện đáng nói

Sau khi system prompt được upload, cộng đồng dev nhảy vào phân tích. Một số phát hiện đáng để chia sẻ với người dùng Việt:

1. Fable 5 và Mythos 5 chung gốc — Fable thêm khoá an toàn

Đây là confirm chính thức cho điều đã đồn từ tháng 5: hai model dùng chung base, chỉ khác lớp safety. Fable 5 dành cho user thông thường, Mythos 5 dành cho các tổ chức được Anthropic cấp quyền (chính phủ, nghiên cứu y khoa, bảo mật). Khi Mỹ ra lệnh cấm xuất khẩu cả hai vào 13/6, điều này có nghĩa: gốc lõi của model thật sự được coi như công nghệ chiến lược.

2. Knowledge cutoff: cuối tháng 1/2026

System prompt nói thẳng. Mọi câu trả lời sau ngày này (vd: thông tin từ tháng 2/2026 trở đi) đều dùng web search hoặc admit "tôi không biết". Người Việt hay hỏi Claude về sự kiện gần (giá BTC tuần trước, giải bóng đá EURO 2026, vụ án tin tức) — nên ý thức rằng Claude trả lời = web search, không phải knowledge nội tại.

3. "Less list, less heading" — viết như tản văn

Trong system prompt có dòng đặc biệt thú vị: "Trừ khi user yêu cầu cụ thể, hạn chế dùng bullet list, heading, hoặc số thứ tự." Đây là giải thích kỹ thuật cho cảm giác mà nhiều user VN đã ghi nhận từ tháng 5: Claude gần đây viết liền mạch hơn, ít list, ít heading, giống văn xuôi hơn. Đây là chủ đích của Anthropic — họ muốn model viết như con người, không như báo cáo.

4. Quy tắc bản quyền cực gắt

Trích nguyên văn (đã dịch): "Khi quote nội dung từ một nguồn, không quá 15 từ. Mỗi nguồn chỉ được quote đúng MỘT lần trong cùng response." Đây là nguyên do vì sao Claude hay từ chối trích dẫn dài, hoặc cố ý paraphrase thay vì quote chính xác. Đối với journalist, lawyer, academic ở VN — cần biết rõ giới hạn này để có chiến lược prompt phù hợp.

Vì sao một system prompt lại dài 120 nghìn ký tự?

Đối chiếu nhanh: system prompt của Claude 2 (2023) chỉ dài khoảng 5.000 ký tự. ChatGPT của OpenAI thường 15-20 nghìn. Fable 5 ở mức 120.000 — gấp 24 lần Claude 2. Vì sao?

Theo nhà nghiên cứu @smalkalbani (đại học giáo dục công nghệ): "120 nghìn ký tự system prompt cho thấy Claude không còn là chatbot. Nó là một full agentic framework, được điều khiển bởi một bản thiết kế hành vi cực kỳ chi tiết."

Ý nghĩa với người dùng VN

Cho prompt engineer

Đọc kỹ system prompt sau khi nó leak là cách nhanh nhất để hiểu vì sao prompt của bạn thành công hoặc thất bại. Khi biết "less list, less heading", bạn sẽ chủ động yêu cầu "trả lời tôi bằng bullet list 5 ý" để vượt qua xu hướng mặc định của model.

Cho dev xây sản phẩm trên Claude API

System prompt qua API có thể ghi đè — bạn không nhận default Fable 5 system prompt. Đây là điểm cực kỳ quan trọng: nếu user complain "Claude không viết bullet" trong app của bạn, có thể là vì system prompt của bạn không yêu cầu rõ.

Cho người làm content / journalist VN

Quy tắc 15 từ/nguồn lý giải vì sao Claude hay paraphrase thay vì quote nguyên văn. Khi cần trích dẫn cho bài báo, bạn nên (1) cung cấp ngay đoạn quote nguyên, (2) yêu cầu Claude chỉnh sửa/comment quanh nó, thay vì yêu cầu Claude "tìm quote phù hợp" từ web — vì Claude sẽ chủ động rút ngắn.

Sự minh bạch — hay vi phạm điều khoản?

Anthropic chưa lên tiếng chính thức về vụ leak. Nhưng theo terms of service, prompt extraction là hành vi vi phạm. Câu hỏi cộng đồng đang tranh luận: nên ủng hộ minh bạch AI bằng việc leak system prompt? Hay tôn trọng IP của công ty AI?

Tác giả tôi nghiêng về một góc thứ ba: leak là tất yếu trong ngành mà mọi mô hình AI lớn đều có thể bị prompt injection. Anthropic, OpenAI, Google biết rõ điều này. Họ chọn viết system prompt giả định "có thể bị đọc" — không giấu thông tin nhạy cảm trong đó. Còn nếu user cộng đồng đọc được, học được, tận dụng được — đó là một bonus minh bạch ngoài kế hoạch. Trong cảnh ngành AI vốn không có nhiều minh bạch, các đợt leak như thế này là chỉ dấu sức khoẻ — chứng tỏ cộng đồng dev còn đủ năng động để phản kháng "black box".

Nguồn gốc: X (Twitter) — @NFTCPS, @smalkalbani; GitHub repo CL4R1T4S (26.4k stars)Bài này là bản tổng hợp + biên tập tiếng Việt từ nguồn trên. Khuyến nghị đọc bản gốc để có thông tin đầy đủ.