Gemini không chỉ là một mô hình ngôn ngữ mạnh mẽ, mà còn là một "chuyên gia" đa năng với khả năng tổng hợp kiến thức từ 57 môn học.
Khác với các mô hình ngôn ngữ lớn khác, Gemini được xây dựng theo hướng đa phương thức, cho phép nó khái quát, vận hành, và kết hợp trên nhiều loại thông tin khác nhau, từ văn bản, code, âm thanh, hình ảnh đến video. Điều này làm cho Gemini trở thành một công cụ đa năng có thể áp dụng cho nhiều lĩnh vực và nhu cầu sử dụng khác nhau.
Google công bố rằng Gemini sẽ có ba phiên bản khác nhau để đáp ứng nhu cầu đa dạng từ trung tâm dữ liệu đến thiết bị di động:
Gemini Ultra: Mô hình lớn nhất và mạnh mẽ nhất, đạt điểm 90% trong bài kiểm tra khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU).
Gemini Pro: Phiên bản sử dụng trong chatbot Bard, mang lại trải nghiệm độc đáo cho người dùng.
Gemini Nano: Phiên bản dành cho thiết bị di động, sẽ được tích hợp trên Pixel 8 Pro.
Gemini không chỉ đánh bại các mô hình khác mà còn vượt qua con người ở cấp độ chuyên gia. Với điểm số 90% trong bài kiểm tra MMLU, mô hình này sử dụng kiến thức từ nhiều lĩnh vực như toán, vật lý, lịch sử, luật, y học và đạo đức. Điều này giúp Gemini "nghĩ kỹ hơn trước khi trả lời những câu hỏi khó."
CEO Google DeepMind, Demis Hassabis, thể hiện sự hứng thú với việc xây dựng mô hình AI mới, lấy cảm hứng từ khả năng nhận biết và tương tác của con người với thế giới. Mục tiêu của Gemini không chỉ là một phần mềm thông minh mà còn là một cộng sự trực quan và hữu ích cho người dùng.
Gemini không chỉ có hiệu suất mạnh mẽ mà còn được đào tạo để nhận diện và xử lý nhiều loại thông tin khác nhau cùng một lúc. Khả năng đọc hiểu và trích xuất thông tin từ hàng trăm nghìn tài liệu mở ra khả năng ứng dụng đa dạng trong nhiều lĩnh vực, từ khoa học đến tài chính.
Hiệp Nguyễn (Nguồn: TH&PL)