DeepSeek: революция в мире открытых LLM и новая веха в развитии AI

    Важное разделение — фундаментальная модель DeepSeek

    DeepSeek-V3-Base — это фундаментальная LLM-модель, подобная GPT-4. Оба решения обучались предсказывать следующее слово на массивных наборах данных. Однако главное, что их отличает — это разница в два года инноваций. В AI-индустрии всё развивается экспоненциально, как например ключевые:

    • Повышение эффективности обучения со стороны алгоритмической части;
    • Снижение стоимости вычислений.

    В результате стоимость обучения DeepSeek-V3-Base всего $6 млн – против $400 млн у GPT-4. Это яркий пример того, насколько  быстро всё развивается.

    Важное разделение — мыслящая модель DeepSeek

    DeepSeek-R1 — это дообученная версия V3-Base, аналог GPT-o1. Ее отличает способность строить длинные цепочки рассуждений, что делает ее более «вдумчивой». 

    Дообучение происходило по хитрой схеме: модель сама генерировала цепочки логических выводов, но использовались только те, что привели к верному ответу.

    Официальные цифры стоимости этого этапа не раскрываются, но, судя по всему, речь идет о недорогих решениях. Это еще один показатель роста качественного синтетического обучения, которое резко повышает уровень LLM при относительно низких затратах.

    Почему столько шума вокруг DeepSeek?

    AI-индустрия редко замечает небольшие научные прорывы, но DeepSeek привлекла внимание сразу по нескольким причинам:

    • Множество достижений собраны в одном месте и дополнены значительной финансовой поддержкой (хоть стоимость обучения V3-Base и $6 млн., все затраты могут доходить и до сотен миллионов);
    • Фокус на молодых специалистах. DeepSeek активно нанимает новое поколение разработчиков, что способствует радикальным инновациям.

    Эта комбинация, которая способна менять рынок.

    Что это значит для индустрии AI и бизнеса?

    Ускоренное развитие Open-Source LLM

    Пример DeepSeek вдохновит инвестиции в исследования LLM. Ранее проведение экспериментов требовало огромных финансовых вложений и было доступно лишь крупным IT-компаниям, однако опыт DeepSeek показал, что такие затраты могут быть значительно меньше. Это позволит большему числу специалистов развивать Open-Source LLM.

    Снижение стоимости эксплуатации LLM

    Каждый год LLM становятся дешевле и компактнее, снижая стоимость интеллекта. Каждое такое снижение делает использование LLM экономически выгодным для новых сфер бизнеса.

    Стремительное обновление AI-моделей

    Теперь компании будут гораздо чаще выпускать новые LLM, так как затраты на их обучение существенно сократились.

    Как это влияет на нас?

    Мы переходим с LLAMA и её аналогов на более умные и эффективные DeepSeek V3-Base и R1. Этот шаг позволит существенно повысить точность AI-аналитики и снизить её стоимость.

    Кроме того, этот тренд означает, что разработка AGI (искусственного интеллекта общего назначения) в России больше не выглядит как несбыточная мечта. Однако для его масштабной эксплуатации всё ещё потребуется мощная вычислительная инфраструктура.

    AGI — но пока не ASI

    Важно понимать, что DeepSeek и его аналоги все еще развивают интеллект человеческого уровня (AGI), но не сверхинтеллект (ASI). Достижение ASI потребует:

    • Гигантских вычислительных ресурсов;
    • Инноваций в самообучении моделей;
    • Вероятного использования новых архитектур.

    Когда AI начнет заменять людей без необходимости подробного надзора за ним, начнется новый этап гонки вычислительных мощностей.

    DeepSeek: прорыв или эволюция?

    DeepSeek — это не революция, но крупный шаг вперед. Мы видим ускорение AI-эволюции, где каждая новая модель становится умнее, дешевле и доступнее. Главная тенденция остается неизменной: технологии развиваются экспоненциально, и наша задача — быть в эпицентре этого роста, двигая индустрию вперед.

    Будьте в курсе

    «В отличие от многих решений на рынке, где ИИ — это скорее опция, здесь аналитика — это ядро. Для наших заказчиков это означает выход на новый уровень зрелости ИТ-операций: меньше простоев, быстрее реакция на сбои и более устойчивое поведение инфраструктуры»
    Подробнее
    «Использование аналитической AIOps-платформы Artimate позволит предложить крупным заказчикам активно развивающиеся отечественные ИТ-решения для повышения эффективности бизнеса и обеспечения технологического суверенитета»
    Подробнее
    Аналитики CNews опубликовали рейтинг 500 крупнейших ИТ-компаний России к 2025 году. В него вошли ключевые игроки отечественного ИТ-рынка, в том числе и наша компания
    Подробнее