Меню Закрыть

Рубрика: обучение с подкреплением

Вышла Qwen3-Coder-Next: модель с открытыми весами для кодинг-агентов

Команда Qwen представила Qwen3-Coder-Next — языковую модель с открытыми весами, разработанную специально для программирующих агентов и локальной разработки. Она построена на базе Qwen3-Next-80B-A3B-Base, в которой используется новая архитектура с гибри…

Инженеры из Disney Research Hub рассказали, как создавали робоверсию снеговика Олафа из мультфильма «Холодное сердце»

Инженеры из Disney Research Hub показали процесс создания робоверсии говорящего снеговика Олафа из мультфильма «Холодное сердце». Компания также опубликовала статью со всеми техническими подробностями проекта. Читать далее…

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных. …

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.P.S кратко напи…

Исследователи из Стэнфорда обучили ИИ играть в Among Us: их агенты выигрывают людей уже в 45% случаев

Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us, при этом не используя вообще никаких размеченных людьми данных. Вместо этого они применяли только обучение с подкреплением и несколько этапов файнтюнинга, в ходе …

OpenAI представила CriticGPT — нейросеть-ментора по поиску и исправлению ошибок в коде ChatGPT

OpenAI разработала новую ИИ-модель CriticGPT на базе GPT-4. Нейросеть ищет ошибки в коде, написанном ChatGPT, и предлагает исправления. CriticGPT предназначена для помощи ИИ-тренерам во время обучения с подкреплением (Reinforcement Learning from Human …

Специалисты Tinkoff Research создали метод для увеличения скорости обучения ИИ в 20 раз

Специалисты лаборатории исследований ИИ Tinkoff Research открыли новый алгоритм для обучения ИИ, рассказали Хабру в пресс-службе лаборатории. По словам исследователей, новый метод, названный SAC-RND, обучает системы в 20 раз быстрее и на 10% качественн…

Вебинар «Обучение с подкреплением: от игр к реальным задачам»

В ходе вебинара будет рассказано методах обучения с подкреплением применительно к различным задачам. Разберемся в каких случаях можно его применять. На простых примерах игровых сред будут разобраны основные алгоритмы, и их усовершен…

Роботов научили использовать людей в качестве датчиков, чтобы лучше ориентироваться в толчее

Американские инженеры из Иллинойского и Стэнфордского университетов разработали метод глубокого обучения с подкреплением, способный улучшить возможности мобильных роботов, которым приходится передвигаться и ориентироваться в помещениях с большим ко…

Обучение с подкреплением, Модельно-ориентированное проектирование для AUTOSAR приложений — вебинары апреля

Приглашаем вас принять участие в бесплатных вебинарах для инженеров и разработчиков.Темы вебинаров:Обучение с подкреплением Модельно-ориентированное проектирование для AUTOSAR приложений Читать далее…