DeepSeek: революция в мире открытых LLM и новая веха в развитии AI

Последние дни технологический мир бурлит обсуждениями вокруг DeepSeek, и мы тоже не остались в стороне. Однако прежде чем сделать громкие заявления, мы провели собственное исследование и разобрали, что на самом деле стоит за этим прорывом. Разбираемся вместе с нашим ML-инженером Митей Литвиненко. 

Важное разделение — фундаментальная модель DeepSeek

DeepSeek-V3-Base — это фундаментальная LLM-модель, подобная GPT-4. Оба решения обучались предсказывать следующее слово на массивных наборах данных. Однако главное, что их отличает — это разница в два года инноваций. В AI-индустрии всё развивается экспоненциально, как например ключевые:

  • Повышение эффективности обучения со стороны алгоритмической части;
  • Снижение стоимости вычислений.

В результате стоимость обучения DeepSeek-V3-Base всего $6 млн – против $400 млн у GPT-4. Это яркий пример того, насколько  быстро всё развивается.

Важное разделение — мыслящая модель DeepSeek

DeepSeek-R1 — это дообученная версия V3-Base, аналог GPT-o1. Ее отличает способность строить длинные цепочки рассуждений, что делает ее более «вдумчивой». 

Дообучение происходило по хитрой схеме: модель сама генерировала цепочки логических выводов, но использовались только те, что привели к верному ответу.

Официальные цифры стоимости этого этапа не раскрываются, но, судя по всему, речь идет о недорогих решениях. Это еще один показатель роста качественного синтетического обучения, которое резко повышает уровень LLM при относительно низких затратах.

Почему столько шума вокруг DeepSeek?

AI-индустрия редко замечает небольшие научные прорывы, но DeepSeek привлекла внимание сразу по нескольким причинам:

  • Множество достижений собраны в одном месте и дополнены значительной финансовой поддержкой (хоть стоимость обучения V3-Base и $6 млн., все затраты могут доходить и до сотен миллионов);
  • Фокус на молодых специалистах. DeepSeek активно нанимает новое поколение разработчиков, что способствует радикальным инновациям.

Эта комбинация, которая способна менять рынок.

Что это значит для индустрии AI и бизнеса?

Ускоренное развитие Open-Source LLM

Пример DeepSeek вдохновит инвестиции в исследования LLM. Ранее проведение экспериментов требовало огромных финансовых вложений и было доступно лишь крупным IT-компаниям, однако опыт DeepSeek показал, что такие затраты могут быть значительно меньше. Это позволит большему числу специалистов развивать Open-Source LLM.

Снижение стоимости эксплуатации LLM

Каждый год LLM становятся дешевле и компактнее, снижая стоимость интеллекта. Каждое такое снижение делает использование LLM экономически выгодным для новых сфер бизнеса.

Стремительное обновление AI-моделей

Теперь компании будут гораздо чаще выпускать новые LLM, так как затраты на их обучение существенно сократились.

Как это влияет на нас?

Мы переходим с LLAMA и её аналогов на более умные и эффективные DeepSeek V3-Base и R1. Этот шаг позволит существенно повысить точность AI-аналитики и снизить её стоимость.

Кроме того, этот тренд означает, что разработка AGI (искусственного интеллекта общего назначения) в России больше не выглядит как несбыточная мечта. Однако для его масштабной эксплуатации всё ещё потребуется мощная вычислительная инфраструктура.

AGI — но пока не ASI

Важно понимать, что DeepSeek и его аналоги все еще развивают интеллект человеческого уровня (AGI), но не сверхинтеллект (ASI). Достижение ASI потребует:

  • Гигантских вычислительных ресурсов;
  • Инноваций в самообучении моделей;
  • Вероятного использования новых архитектур.

Когда AI начнет заменять людей без необходимости подробного надзора за ним, начнется новый этап гонки вычислительных мощностей.

DeepSeek: прорыв или эволюция?

DeepSeek — это не революция, но крупный шаг вперед. Мы видим ускорение AI-эволюции, где каждая новая модель становится умнее, дешевле и доступнее. Главная тенденция остается неизменной: технологии развиваются экспоненциально, и наша задача — быть в эпицентре этого роста, двигая индустрию вперед.

Будьте в курсе

Мы дали развернутый экспертный комментарий порталу IT Channel News, где осветили роль автоматизированных аналитических систем, перспективы AIOps и влияние больших данных на IT-мониторинг.
Подробнее
Основные выводы свежего обзора TAdviser «Рынок систем мониторинга и управления ИТ-инфраструктурой» и мнение нашего руководителя продукта Artimate Дмитрий Кошкина
Подробнее
AIOps трансформирует наблюдаемость, превращая хаотичный поток событий в понятные закономерности. В статье рассказываем, как этот новый подход помогает IT-командам быстрее находить проблемы и предотвращать сбои.
Подробнее