- Итоги 2025 года: компьютер месяца
- Итоги 2025 года: программное обеспечение
- Итоги 2025 года: носимые устройства
- Лучшие ИИ-сервисы и приложения 2025 года: боты одолевают
- Итоги 2025 года: интернет-индустрия
- Итоги 2025 года: смартфоны
- Итоги 2025 года: процессоры для ПК
- Самые ожидаемые игры 2026 года
- Итоги 2025 года: игровые видеокарты
- Итоги 2025-го: ИИ-лихорадка, рыночные войны, конец эпохи Windows 10 и ещё 12 главных событий года
- Обзор ноутбука TECNO MEGABOOK S14 (S14MM): OLED с HDR как новая норма
- Итоги 2025 года: почему память стала роскошью и что будет дальше
- Лучшие игры 2025 года: выбор читателей и редакции
Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.
Итоги 2025 года: компьютер месяца
Итоги 2025 года: программное обеспечение
Итоги 2025 года: носимые устройства
Лучшие ИИ-сервисы и приложения 2025 года: боты одолевают
Итоги 2025 года: интернет-индустрия
Итоги 2025 года: смартфоны
Итоги 2025 года: процессоры для ПК
Самые ожидаемые игры 2026 года
Итоги 2025 года: игровые видеокарты
Итоги 2025-го: ИИ-лихорадка, рыночные войны, конец эпохи Windows 10 и ещё 12 главных событий года
Обзор ноутбука TECNO MEGABOOK S14 (S14MM): OLED с HDR как новая норма
Итоги 2025 года: почему память стала роскошью и что будет дальше
Лучшие игры 2025 года: выбор читателей и редакции
Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.
От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.
Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.
Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.
В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.
