Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году.Суть SWE-bench Ve…
Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче…
Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности.Бенчмарк включает два практических…
Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготов…
Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов. Читать далее…
После того как в декабре бывший генеральный директор Intel Пэт Гелсингер завершил свою более чем 40-летнюю карьеру в полупроводниковом гиганте, многие задавались вопросом, чем он займётся дальше. В четверг бывший генеральный директор Intel рассказ…
Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами. Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI…
Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3. Читать далее…
Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub. Читать далее…
Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу. Читать далее…