Trong các tweet Sundar Pichai đẩy lên X vào ngày Google I/O 2026 (19/5), có một bản tin tưởng phụ nhưng thực ra là điểm tựa chiến lược: Gemini 3.5 Flash chính thức ra mắt. Khác với Gemini 3 Pro hay Deep Think hướng tới "thông minh hết mức", Flash đặt cược vào tốc độ — và Google công bố con số kỹ thuật rất cụ thể: nhanh gấp 4 lần tokens/giây so với các model frontier khác.
Tweet chính chủ từ CEO Google
Just off stage at #GoogleIO, some highlights from this morning. Gemini 3.5 Flash is available today for everyone in @antigravity and across our products and APIs. Compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks with huge progress in coding. It's also comparable to the best models but very fast (4x faster tokens/second than other frontier models). And when looking at the intelligence versus output speed, it's in a league of its own in the top right quadrant.
— @sundarpichai (CEO Google + Alphabet — 4.092 likes)
Top-right quadrant — vị trí "không có đối thủ"
Trong các phân tích model AI, biểu đồ phổ biến nhất là intelligence (trục Y) vs output speed (trục X). Mỗi model nằm ở một vị trí: GPT-5.4 Pro top-left (thông minh nhưng chậm), Sonnet/Haiku ở bottom-right (nhanh nhưng kém thông minh), Opus 4.7/4.8 ở giữa-trên. Sundar khẳng định 3.5 Flash nằm "in a league of its own in the top right quadrant" — tức vừa thông minh, vừa nhanh, không có đối thủ tương đương.
Đây là tuyên ngôn marketing táo bạo. Cộng đồng dev cần test độc lập trước khi tin. Nhưng số liệu ban đầu từ Artificial Analysis Intelligence Index (một tổ chức độc lập) ủng hộ phần lớn lập luận này — đặc biệt ở mảng coding và instruction following.
Vì sao 4x tốc độ tokens/giây lại quan trọng?
Với task cá nhân, tốc độ không quá quan trọng — bạn đợi 10 giây hay 40 giây cũng được. Nhưng với hai loại workload, tốc độ là sống còn:
- Voice AI thời gian thực: voice assistant phải trả lời trong dưới 500ms. Token chậm = trễ = trải nghiệm tệ.
- Agent chạy nhiều bước: nếu một agent gọi LLM 50 lần trong một task, tốc độ x4 đồng nghĩa hoàn thành task gấp 4 lần.
Đây cũng là lý do Google đặt 3.5 Flash làm nền tảng cho Gemini Spark (AI agent cá nhân 24/7). Spark cần gọi LLM hàng chục, hàng trăm lần để hoàn thành một task dài hạn — nên model nhanh là điều kiện cần.
Cho dev VN
- Đang dùng Gemini 2.5 Flash trên API: cập nhật model ID gemini-3-5-flash-latest. Code không cần sửa.
- Đang xây voice AI (chatbot tổng đài VN, voice agent ngân hàng): test 3.5 Flash thay GPT-5.4 mini — có thể giảm 30-50% latency.
- Đang dùng Gemini cho code completion trong VS Code/JetBrains: đổi sang 3.5 Flash, tốc độ suggest gần như instant.
- Cảnh báo: 3.5 Flash vẫn yếu hơn Opus 4.8 / GPT-5.4 Pro ở task reasoning rất phức tạp. Đừng đẩy hết workload sang Flash chỉ vì rẻ + nhanh.
Chiến lược ba lớp của Google
Đến giữa 2026, Google đã có chiến lược ba lớp rất rõ: Gemini 3.5 Flash cho tốc độ và voice/agent; Gemini 3 Pro cho cân bằng; Gemini 3 Deep Think cho task khó cực kỳ (toán Olympic, ARC-AGI-2, research grade). Mỗi gói (AI Plus, Pro, Ultra) cho phép user truy cập tổ hợp model khác nhau.
OpenAI có chiến lược ngang: GPT-5.4 Mini / Standard / Pro. Anthropic có: Haiku 4.5 / Sonnet 4.7-4.8 / Opus 4.7-4.8. Cả ba ông lớn đều nhận ra: một model duy nhất không thể serve mọi workload. 2026 là năm thị trường AI chính thức "tiered" — và người dùng VN cần học cách chọn tier phù hợp cho từng nhiệm vụ.