Меню Закрыть

Рубрика: attention

DeepSeek-V3.2-Exp: китайцы снова мутят что-то хитрое

DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.Если по-…

DeepSeek-V3.2-Exp: китайцы снова мутят что-то хитрое

DeepSeek выпустили экспериментальную модель DeepSeek-V3.2-Exp — видимо, промежуточный шаг к их следующему «монстру». Главное новшество — DeepSeek Sparse Attention: хитрый способ сделать работу трансформеров на длинных текстах быстрее и дешевле.Если по-…

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

Все современные LLM построены на архитектуре трансформера. GPT-4o от OpenAI, Gemini от Google, Claude Sonet от Anthropic, Grok от xAI… перечислять можно долго. Трансформер – действительно очень мощная архитектура (и кстати тоже была придумала в Googl…