Google анонсировала Gemini 2.5, новое семейство рассуждающих ИИ-моделей.
Флагман Gemini 2.5 Pro — это мультимодальная модель со встроенными возможностями «мышления», позволяющими анализировать информацию, делать логические выводы и решать сложные задачи, учитывая контекст. Google утверждает, что все будущие модели семейства Gemini 2.5 будут обладать такими способностями.
По сравнению с предыдущими моделями, вроде Gemini 2.0 Flash Thinking, новая версия демонстрирует значительный прогресс. Gemini 2.5 Pro лидирует в тестах LMArena (предпочтения пользователей), AIME 2025 (математика) и GPQA diamond (наука), а также занимает первое место с результатом 18,8% в тесте Humanity’s Last Exam, оценивающим знания и рассуждения на уровне человеческого предела.


В области программирования модель показывает скачок по сравнению с Gemini 2.0: в тесте SWE-Bench Verified новая ИИ-модель набрала 63,8%, обойдя OpenAI o3-mini и DeepSeek R1, хотя уступила Claude 3.7 Sonnet от Anthropic (70,3%). А в тесте Aider Polyglot (редактирование кода) она показала 68,6%, превзойдя ведущие модели конкурентов.
Gemini 2.5 Pro поддерживает контекстное окно в 1 млн токенов, а скоро лимит увеличат до 2 миллионов. Это позволяет модели обрабатывать огромные объёмы данных, включая текст, аудио, изображения, видео и целые репозитории кода.
Google позиционирует Gemini 2.5 как ответ на модели типа o1 от OpenAI, подчёркивая её потенциал для будущих ИИ-агентов, способных выполнять задачи автономно.

7 комментариев
Форум →