♦ Hiện nay AI đang bùng nổ. NVIDIA dự báo, giai đoạn 2025-2030 các "làn sóng chiến lược" mà các tập đoàn công nghệ và quốc gia tiên tiến hướng đến sẽ chuyển từ Generative AI sang Agentic AI, tiếp theo là Physical AI. Sự cạnh tranh sẽ khiến các sản phẩm liên quan đến AI ngày càng rẻ.
Các tác vụ AI phổ quát như viết thuyết trình, viết bài báo khoa học, làm văn, viết thơ; hay yêu cầu gợi ý một chuyến du lịch với lịch trình đính kèm hình ảnh của các điểm tham quan, v.v có thể thực hiện với các chatbot như ChatGPT Plus, Gemini Pro, Claude Sonnet, Copilot Pro và LlaMA Maverick,...
Có thể vẽ tranh, tạo ảnh từ câu lệnh bằng OpenAI Dall-E3 (1/2024), Stable Diffusion v35 (10/2024), Photon (11/2024), Ideogram 3.0 (3/2025), Seedream 3.0 (4/2025), FLUX.1 Kontext (5/2025), Gemini-2.0-flash-preview-image (5/2025), nhất là bằng GPT Image-1 (4/2025) và Google Imagen 3.0 (10/2024)/ Imagen 4.0 (6/2025).
Hay tạo video có độ phân giải đến 1080p, đa dạng phong cách từ câu lệnh hoặc từ ảnh bằng OpenAI Sora (12/2024), Pika-v2.2 (2/2025), Kling-v2.1-master (5/2025), Seedance-v1 Pro (6/2025), Hailuo-02 Pro (6/2025), Wan-v2.2-a14b (7/2025),... Nhất là tạo ra video vượt trội với "những nhân vật có khả năng thể hiện cảm xúc sinh động" dựa trên nhiều mô hình tạo video và nhiều kỹ thuật khác nhau, như ứng dụng Google Veo 2 (12/2024), Google Veo 3 (6/2025) cho tạo video độ phân giải đến 4K, được phát hành dưới dạng Public Preview trên Vertex AI.
Hỗ trợ viết code có thể thay thế Visual Studio Code với các công cụ Google AlphaCode phát hành 3/2024-2025 hoạt động với Gemini Pro 1.5/2.0/2.5; Anthropic Claude Code (2023-2024), Cursor (2023-2024) của Cursor.sh cho tùy chọn mô hình hoạt động, GitHub Copilot (2022-2023) chuyên nghiệp, Amazon CodeWhisperer (2022-2023), Meta Code Llama 70B (12/2023) mã nguồn mở lớn nhất,...
Tuy nhiên tất cả ứng dụng AI trên đều được xây dựng và hoạt động dựa trên các mô hình AI như bảng 1. Ngoài ra, còn một số mô hình AI được đánh giá cao, như Grok-3 (2/2025) của startup xAI mạnh hơn Grok-2 khoảng 10 lần và tương đương GPT-o1; Mixtral 8x22B (3/2024) của startup Mixtral AI, Meta LlaMA3 ra mắt 4/2024, và Claude 3.5 (12/2024) của startup Anthropic đều mạnh ngang GPT4,...
Gemini 2.5 Pro đang đứng đầu LMArena với khả năng thực hiện các nhiệm vụ phức tạp như lập kế hoạch, viết nâng cao, hiểu và tóm tắt nội dung một cách hiệu quả, vượt chuyên gia con người ở một số nhiệm vụ, vượt mô hình GPT-4.5 ở nhiều thử nghiệm trong khoa học, y học, kinh doanh và giáo dục. Đặc biệt, nó có thể suy luận toán học, phân tích dữ liệu khoa học và thực hiện viết code nâng cao.

Bảng 1: So sánh những AI dẫn đầu tính đến 7/2025, (các thông số có tính tham khảo).
Hơn thế, từ đầu năm 2025, loạt mô hình AI mới của Trung Quốc có chi phí thấp liên tiếp ra mắt nhằm chiếm lĩnh người dùng, như Alibaba Qwen 2.5-Max phát hành 29/1/2025, có khả năng AI vượt LlaMA 3.1 và Claude Sonnet 3.5 từ giải quyết vấn đề phức tạp đến toán học và mã hóa bởi kỹ thuật chưng cất, và vượt trội hơn DeepSeek-V3 (28/12/2024). Phiên bản DeepSeek R1 tinh vi hơn hẳn Qwen 2.5-Max. Mô hình Doubao 01.ai của ByteDance mạnh ngang với GPT-4. Phiên bản Doubao 1.5-pro ra mắt 21/1/2025, vượt so với GPT-o1 trong mức độ hiểu và phản hồi phức tạp - AIME,...
Các sản phẩm AI của ByteDance, Moonshot AI từ năm 2023, và của DeepSeek từ 1/2025 thu hút được nhiều người dùng hơn so với AI của Tencent với Hunyuan (phiên bản Turbo S công bố 27/2/2025 có năng lực ngang DeepSeek-V3). Baidu với phiên bản lập luận mới X1 và nền tảng Ernie 4.5 công bố 16/3/2025 đều nguồn mở, có hiệu suất tương đương DeepSeek-V3 nhưng rẻ hơn.
Để cạnh tranh, OpenAI vào 31/1/2025 phát hành GPT-o3-mini với giá 1,10 USD cho 1 triệu token đầu vào, giảm 50% so với o1-mini trong khi nhanh hơn 24%. Còn Google vào 13/3/2025 đưa ra Gemma 3 sử dụng công nghệ tương tự Gemini 2.0, dành cho các nhà phát triển tạo ứng dụng AI, có khả năng chạy với một chip AI trên mọi thứ từ điện thoại (1B), PC (4B-12B) đến máy trạm (27B), hỗ trợ cơ bản hơn 35 ngôn ngữ, khả năng phân tích văn bản, hình ảnh và video ngắn. Gemma3 vượt trội Meta Llama3-405B, DeepSeek V3 và GPT-o3 mini trong đánh giá trên LMArena, chỉ kém Deepseek R1 25 điểm.
Trong khi có nhiều LLM mạnh cho dùng miễn phí như Gork 2 (12/2024), Mistral AI, Gemini 1.5/2.0/ 2.5 Flash với ngữ cảnh lên đến 1 triệu token, Claude 3.5 Sonnet mạnh gần bằng GPT-4o. Hoặc cho dùng thử như Gemini 2.5 Pro đứng đầu LMArena, Gork 3 mạnh hơn GPT-o1, Meta LLaMA 4 Behemoth vượt GPT-4.5, Gemini 2.0 Pro và Claude Sonnet 3.7 trong tác vụ STEM,...
♦ Các chatbot tạo sinh và tác nhân AI phát hành năm 2023-2025 được các công ty công nghệ xây dựng với lượng dữ liệu rất lớn (tiếp tục tăng cấp số nhân), chúng ngày càng có tính phổ quát hơn, có thể ứng dụng ở nhiều lĩnh vực theo cách riêng. Ngoài ra, chúng còn cho tinh chỉnh với dữ liệu riêng, tạo ra những AI chuyên dụng với hiệu suất nâng cao, giúp tăng vượt bậc năng suất và chất lượng trong quy trình công việc ở khắp các lĩnh vực. Riêng với doanh nghiệp, việc tạo ra chatbot với dữ liệu riêng sẽ giúp tiếp cận thị trường mới, cải thiện dịch vụ khách hàng, một số trường hợp giúp tạo ra sản phẩm mới và nguồn doanh thu mới. “Dữ liệu có thể không nằm trên bảng cân đối tài chính, song lại là tài sản quý giá, có thể tạo lợi thế cạnh tranh cho doanh nghiệp trong thời đại kỹ thuật số với AI”.
Những Agentic AI (AI agent) được triển khai thực tế ngày càng mạnh và tăng tính năng, đưa AI trở thành trợ lý thực sự. Ví dụ, AWS Agents for Bedrock ra mắt 7/2023, có thể tự động thực hiện công việc như nhận đặt chỗ nhà hàng, đặt vé nhà hát, thay vì chỉ đưa ra gợi ý. Những AI Agent tiên tiến hơn bắt đầu tham gia lực lượng lao động từ năm 2025, như các AI agent vận hành với Gemini 2.5 Pro gồm: Deep Research (2/2025) tối ưu hóa duyệt web và phân tích dữ liệu để khám phá các chủ đề phức tạp và cung cấp báo cáo toàn diện chuyên sâu, dễ hiểu; Canvas (4/2025) cho viết và chỉnh sửa tài liệu hoặc code với hiển thị theo thời gian thực; Mariner (5/2025) có khả năng tự thực hiện các nhiệm vụ web phức tạp như tìm kiếm sản phẩm dân dụng, đặt chỗ khách sạn, tìm chuyến bay và thực hiện mua sắm trực tuyến với khả năng thực hiện đồng thời đến 10 tác vụ. Hay Operator (5/2025) vận hành với GPT-o3 có khả năng tự động điều khiển máy tính độc lập thay người, như viết code, đặt vé du lịch,...
Trợ lý ảo Tasks (14/1/2025) tích hợp trong ChatGPT-4o có thể thực hiện từ các lệnh cơ bản đến đặt vé xem phim, hay các hành động định kỳ như tóm tắt tin tức hàng tuần, hoặc cập nhật thời tiết hàng ngày theo lời nói, mở rộng ChatGPT ra ngoài trò chuyện bằng text, cạnh tranh với các trợ lý ảo truyền thống như Google Assistant, Apple Siri và Amazon Alexa. Nhất là công cụ Caterpillar tích hợp Tasks cho phép ChatGPT-4o tự động tìm kiếm thông tin cụ thể, phân tích vấn đề, tóm tắt dữ liệu, điều hướng trang web và truy cập tài liệu, thông báo kết quả đến người dùng khi hoàn thành nhiệm vụ. Còn Google đang đẩy nhanh ra mắt trợ lý lời nói trên smartphone với Project Astra dựa trên Gemini 2.5 Pro, có khả năng phản hồi chính xác hình ảnh, văn bản và lệnh thực hiện nhiều loại tác vụ.
♦ Tuy nhiên, theo Richard Reisman - thành viên Quỹ Đổi mới Hoa Kỳ, “…giai đoạn 2025 - 2035 sẽ là thời gian đánh dấu bước ngoặt quyết định liệu AI sẽ làm tăng cường hay làm giảm nhân tính". Kết quả của nhóm nhà nghiên cứu từ Microsoft và Đại học Carnegie Mellon thực hiện vào 2/2025 cho thấy: "Nếu quá lệ thuộc vào công cụ AI (tức để AI suy nghĩ thay mình), con người có thể mất khả năng thực hành phán đoán thường xuyên, giảm nhận thức, tư duy phản biện và lúng túng nếu có ngoại lệ xảy ra. Nói cách khác, khả năng tự giải quyết vấn đề của con người sẽ kém hơn khi AI thất bại".
Mặt khác, những AI đến 7/2025 vẫn hạn chế ở khả năng học những thứ mới và “thích nghi” với vấn đề phức tạp hoặc có tính chiến thuật, nhất là thích ứng theo ngữ cảnh thời gian thực. Có thể không có gì “thông minh” trong giải pháp AI hiện tại, bởi chúng học từ các nội dung do con người làm ra, phụ thuộc hoàn toàn vào những tham số mẫu để dự đoán những mẩu nội dung hợp lý nhất để trả lời cho câu lệnh người dùng. Những yếu tố khác như trách nhiệm, độ an tâm và tính xác thực của thông tin, thì AI tiên tiến nhất hiện nay như Gemini 2.5, GPT-o3 hay Gork 4 vẫn hoàn toàn không làm được.
|
Hà Nội, 6/8/2025, theo Internet và ChatGPT-o3 Pro. Nguyễn Quang Chung |
