Компания xAI официально объявила о выпуске Grok 4.1. По данным компании, Grok 4.1 значительно улучшает качество взаимодействия за счёт расширенных творческих, эмоциональных и совместных возможностей. Модель стала лучше воспринимать тонкие намерения пол…
xAI выпустила Grok 4.1, обновленную модель своего ведущего ИИ, который уже доступен в веб-версии и мобильных приложениях на iOS и Android. Модель доступна в быстром и рассуждающем режиме — переключение происходит автоматически, но при необходимости мож…
GPT-5.1 Thinking пришла первой в бенчмарках ARC-AGI-1 и ARC-AGI-2, которые считаются одними из самых сложных и важных для ИИ. Суть этих бенчмарков в том, что они пытаются замерить не знания модели, а ее способность к абстрактному мышлению в духе челове…
Artificial Analysis представила новый бенчмарк AA-Omniscience, который оценивает уровень галлюцинаций не только по количеству правильных ответов, но и по умению моделей говорить «не знаю». Первые три места занимают ИИ из линейки Claude: маленькая Claud…
На OpenRouter стартовало тестирование сразу двух новых моделей: «быстрой» Sherlock Dash Alpha и «рассуждающей» Sherlock Think Alpha. Из характеристик раскрыто контекстное окно: 1,84M токенов, что является одним из лучших результатов для ИИ — например, …
Брайан Мур запустил бенчмарк AI World Clocks, в котором девять ИИ разных поколений — от GPT-3.5 до Grok 4 и GPT-5 — пытаются создать в html часы с правильно показанным временем. К сожалению, задача оказалась не под силу даже лучшим моделям. Читать дале…
В разговоре с Роном Бароном основатель xAI Илон Маск раскрыл подробности о Grok 5. Это ИИ обучают на новом суперкомпьютере Colossus 2 — он пока не вышел на полную мощность (1 млн GPU прогнозируют в 2026 году), но даже текущих возможностей хватает, чтоб…
На LMArena началось тестирование Mandarin: новой продвинутой модели создания изображений. В ответ на классический промпт «нарисуй доску и напиши на ней, кто твои создатели», модель отвечает, что ее разработала компания Илона Маска xAI (Grok). Читать да…
Завершился первый сезон бенчмарка Alpha Arena, в котором ведущие ИИ получили по 10 тысяч реальных долларов, на которые торговали криптовалютами. В итоге в плюсе финишировали лишь Qwen3 Max и DeepSeek v3.1. Остальные участники — GPT-5, Gemini 2.5 Pro, C…
Завершился бенчмарк PokerBattle, в котором большие языковые модели пытались заработать как можно больше денег в игре в техасский холдем. Автор бенчмарка Макс Павлов рассказал, что выбрал техасский холдем за то, что это игра с неполной информацией, для …