Меню Закрыть

Рубрика: бенчмарк

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году.Суть SWE-bench Ve…

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче…

Сможет ли ИИ-агент уложиться в бюджет? Бенчмарк Alibaba DeepPlanning ставит жесткие условия

Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности.Бенчмарк включает два практических…

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro

Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготов…

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов. Читать далее…

Бывший генеральный директор Intel запускает бенчмарк для оценки соответствия ИИ

После того как в декабре бывший генеральный директор Intel Пэт Гелсингер завершил свою более чем 40-летнюю карьеру в полупроводниковом гиганте, многие задавались вопросом, чем он займётся дальше. В четверг бывший генеральный директор Intel рассказ…

Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе

Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами. Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI…

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3. Читать далее…

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub. Читать далее…

Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2

Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу. Читать далее…