Главное изменение: модель объединила возможности кодинга из GPT-5.3-Codex с улучшенным рассуждением из GPT-5.2. Раньше это были отдельные модели под разные задачи, теперь одна.На бенчмарке GDPval, где модели выполняют рабочие задачи по 44 профессиям (п…
Еще летом была необычная новость про управление вендинговыми аппаратами с помощью ИИ моделей. Так вот: исследователи сделали целую симуляцию/бенчмарк, чтобы оценивать насколько модели хороши в управлении и запустили Claude Opus 4.6 в симуляцию вендинго…
Новое исследование, проведенное учеными из Швейцарии и Германии, показывает, что даже лучшие модели, такие как Claude Opus 4.5, с включенным веб-поиском все равно выдают неверную информацию почти в трети случаев. Читать далее…
Китайский гигант Xiaomi представил MiMo‑V2-Flash — большую языковую модель с открытыми весами, которая претендует на лидерские позиции в конкретных дисциплинах. Читать далее…
Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, т…
Исследователи из Университета Люксембурга предложили необычный способ анализа больших языковых моделей: провести с ними полноценный курс психотерапии. В рамках эксперимента модели ChatGPT, Gemini и Grok прошли четырёхнедельную серию терапевтически…
24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа…
Разработчик и ветеран Microsoft Дэйв Пламмер протестировал в своей лаборатории 25 компьютеров, выпущенных с 1976 по 2023 год. Он использовал бенчмарк Dhrystone 2.2. Читать далее…
Немецкое издание PCGamesHardware опубликовало рейтинг производительности 180 графических карт, вышедших с 2009 по 2025 годы. Ранее оно уже выпускало такой рейтинг в 2021 году, но тогда он включал 120 моделей. Читать далее…
Представьте: чтобы научить нейросеть математике, вы сажаете её не за учебники с интегралами, а за старые добрые аркадные игры — Snake и тетрис. Звучит как безумие? Однако именно такой неожиданный путь к математич…