Меню Закрыть

Рубрика: бенчмарки

OpenAI выпустила GPT-5.4 — свою новую флагманскую модель

Главное изменение: модель объединила возможности кодинга из GPT-5.3-Codex с улучшенным рассуждением из GPT-5.2. Раньше это были отдельные модели под разные задачи, теперь одна.На бенчмарке GDPval, где модели выполняют рабочие задачи по 44 профессиям (п…

Claude Opus 4.6 — безжалостный капиталист

Еще летом была необычная новость про управление вендинговыми аппаратами с помощью ИИ моделей. Так вот: исследователи сделали целую симуляцию/бенчмарк, чтобы оценивать насколько модели хороши в управлении и запустили Claude Opus 4.6 в симуляцию вендинго…

Исследования показывают, что ИИ-модели по-прежнему слишком часто испытывают галлюцинации

Новое исследование, проведенное учеными из Швейцарии и Германии, показывает, что даже лучшие модели, такие как Claude Opus 4.5, с включенным веб-поиском все равно выдают неверную информацию почти в трети случаев. Читать далее…

Xiaomi выпустила MiMo-V2-Flash 309B, модель достигла абсолютного верха в агентном бенчмарке

Китайский гигант Xiaomi представил MiMo‑V2-Flash — большую языковую модель с открытыми весами, которая претендует на лидерские позиции в конкретных дисциплинах. Читать далее…

FrontierScience: OpenAI выпустила бенчмарк PhD-сложности для проверки научного мышления ИИ

Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, т…

Учёные отправили нейросети на психотерапию – и выявили тревожность, ОКР и внутренние конфликты

Исследователи из Университета Люксембурга предложили необычный способ анализа больших языковых моделей: провести с ними полноценный курс психотерапии. В рамках эксперимента модели ChatGPT, Gemini и Grok прошли четырёхнедельную серию терапевтически…

Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа…

PCGamesHardware представило рейтинг 180 графических карт 2009-2025 гг. выпуска

Немецкое издание PCGamesHardware опубликовало рейтинг производительности 180 графических карт, вышедших с 2009 по 2025 годы. Ранее оно уже выпускало такой рейтинг в 2021 году, но тогда он включал 120 моделей. Читать далее…

ViGaL: как игра в змейку помогла нейросети обогнать GPT-4o в математике

Представьте: чтобы научить нейросеть математике, вы сажаете её не за учебники с интегралами, а за старые добрые аркадные игры — Snake и тетрис. Звучит как безумие? Однако именно такой неожиданный путь к математич…