Moonshot AI Kimi K2 превосходит GPT-4 в ключевых тестах-и это бесплатно

23.07.2025

271

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Moonshot AI, китайский стартап искусственного интеллекта, стоящий за популярным Kimi Chatbot, выпустил в пятницу модель языка с открытым исходным кодом, которая напрямую бросает вызов частным системам от Openai и Anpropic с особенно сильной производительностью в задачах кодирования и автономных агентов.

Новая модель, называемая KIMI K2, оснащена общим параметром 1 триллион с 32 миллиардами активированных параметров в архитектуре смеси экспертов. Компания выпускает две версии: модель фундамента для исследователей и разработчиков, а также настройка инструкции, оптимизированный для приложений для чата и автономных агентов.

? Привет, Кими К2! Агент с открытым исходным кодом!
? 1 т всего / 32B Active Moe Model
? SOTA ON SWE BENGHED VERIFIED, TAU2 и ACEBENCH среди открытых моделей
«Сильный в кодировании и агентских задачах
? Мультимодальный и мысленный режим пока не поддерживается

С Kimi K2, Advanced Agentic Intelligence… pic.twitter.com/plrqnrg9jl
— kimi.ai (@kimi_moonshot) 11 июля 2025 года

«Kimi K2 не только отвечает; он действует», — заявила компания в своем блоге объявления. «С Kimi K2 Advanced Agentic Intelligence более открыта и доступна, чем когда -либо. Мы не можем дождаться, чтобы увидеть, что вы строите».

Выдающейся функцией модели является ее оптимизация для «агентских» возможностей-способность автономно использовать инструменты, записывать и выполнять код, а также полные сложные многоэтапные задачи без вмешательства человека. В тестах, Kimi K2 достиг 65,8% точности на Swe-Bench Verified, сложный эталон разработки программного обеспечения, превосходящий большинство альтернатив с открытым исходным кодом и соответствуя некоторым проприетарным моделям.

Дэвид встречается с Голиафом: Как Kimi K2 превосходит модели на миллиард долларов Силиконовой долины.

Метрики производительности рассказывают историю, которая должна сделать руководителей в OpenAI и антропического обращения обратить внимание. Kimi K2-конструкция не только конкурирует с крупными игроками-он систематически превосходит их по задачам, которые наиболее важны для предприятия клиентов.

На Livecodebench, возможно, наиболее реалистичном доступном эталонном значении кодирования, Kimi K2 достиг 53,7% точности, решительно победив 46,9% Deepseek-V3 и 44,7% GPT-4.1. Еще более поразительно: он набрал 97,4% по математике-500 по сравнению с 92,4% GPT-4.1, предполагая, что Moonshot взломал что-то фундаментальное в отношении математических рассуждений, которые ускользнули от более крупных, финансируемых конкурентов.

Но вот то, что контрольные показатели не захватывают: Moonshot достигает этих результатов с помощью модели, которая стоит доли того, что сотрудники тратят на обучение и вывод. В то время как Openai сжигает сотни миллионов на вычислительном процессе для постепенных улучшений, Moonshot, по -видимому, нашел более эффективный путь к тому же пункту назначения. Это классическая дилемма новатора, разыгрывающая в режиме реального времени — лоскутный посторонний не просто соответствует выступлению действующего президента, они делают это лучше, быстрее и дешевле.

Последствия выходят за рамки простых прав хвастовства. Клиенты предприятия ждали систем искусственного интеллекта, которые могут фактически завершить сложные рабочие процессы автономно, а не просто генерировать впечатляющие демонстрации. Сила Кими К2 на SWE-Bench Verified предполагает, что это может, наконец, выполнить это обещание.

Прорыв Muonclip: почему этот оптимизатор может изменить экономику обучения искусственного интеллекта

В технической документации Moonshot-это деталь, которая может оказаться более значительной, чем баллы модели: их разработка оптимизатора MuonClip, который позволил стабильному обучению модели триллион параметров «с нулевой нестабильностью обучения».

Это не просто инженерное достижение — это потенциально сдвиг парадигмы. Нестабильность обучения стала скрытым налогом на разработку крупных языковых моделей, заставляя компании перезапустить дорогостоящие тренировочные пробеги, реализовать дорогостоящие меры безопасности и принять неоптимальные результаты, чтобы избежать аварий. Решение Moonshot непосредственно касается взрывающихся логитов внимания путем изменения матриц веса в запросах и ключевых прогнозах, по существу, решая проблему у его источника, а не применяя полосовые пластырь вниз по течению.

Экономические последствия ошеломляют. Если MuonClip доказывает обобщаемое — и Moonshot предполагает, что это так — метод может значительно уменьшить вычислительные накладные расходы на обучение крупных моделей. В отрасли, где затраты на обучение измеряются за десятки миллионов долларов, даже скромные повышения эффективности приводят к конкурентным преимуществам, измеренным в кварталах, а не годами.

Более интересно, это представляет собой фундаментальную дивергенцию в философии оптимизации. В то время как западные лаборатории ИИ в основном сходились в вариации ADAMW, ставка Moon’s Muon’s Muon предполагает, что они исследуют действительно различные математические подходы к ландшафту оптимизации. Иногда наиболее важные инновации происходят не из масштабирования существующих методов, а из -за полного допроса их основополагающих предположений.

Открытый исходный код как конкурентное оружие: Радикальная ценовая стратегия Moonshot предназначена для центров прибыли Big Tech

Решение Moonshot о открытом исходном коде Кими К2, одновременно предлагая доступ к конкурентной цене, показывает сложное понимание динамики рынка, которая выходит далеко за пределы альтруистических принципов с открытым исходным кодом.

При составлении 0,15 долл. США за миллион входных токенов для кеш -хитов и 2,50 долл. США за миллион токенов, Moonshot агрессивно оценивается ниже OpenAI и антропический, предлагая сопоставимые — и в некоторых случаях превосходно — производительность. Но реальным стратегическим мастерскими является двойная доступность: предприятия могут начать с API для немедленного развертывания, а затем перейти на самостоятельные версии для оптимизации затрат или требований соответствия.

Это создает ловушку для действующих провайдеров. Если они соответствуют ценам Moonshot, они сжимают свою собственную маржу на то, что было их самой прибыльной линейкой продуктов. Если они этого не делают, они рискуют деформированием клиентов на модель, которая работает так же хорошо для доли затрат. Между тем, Moonshot строит долю рынка и внедрение экосистемы по обоим каналам одновременно.

Компонент с открытым исходным кодом-это не благотворительная организация-это приобретение клиентов. Каждый разработчик, который загружает и экспериментирует с Kimi K2, становится потенциальным корпоративным клиентом. Каждое улучшение, внесенное сообществом, снижает собственные затраты на разработку Moonshot. Это маховик, который использует глобальное сообщество разработчиков для ускорения инноваций при создании конкурентных рвов, которые почти невозможно воспроизвести конкуренты с закрытым исходным кодом.

От демонстрации до реальности: почему возможности агента Kimi K2 сигнализируют о конце театра Чатбота

Демонстрации Moonshot, общий в социальных сетях, раскрывают что -то более значительное, чем впечатляющие технические возможности — они показывают, что ИИ наконец -то заканчивает от трюков из гостиной до практической полезности.

Рассмотрим пример анализа заработной платы: Kimi K2 не просто отвечала на вопросы о данных, он автономно выполнил 16 операций Python для создания статистического анализа и интерактивных визуализаций. Лондонская демонстрация планирования концерта включала 17 звонков на инструментах на нескольких платформах — поиск, календарь, электронная почта, рейсы, проживание и бронирование ресторанов. Это не курируемые демонстрации, предназначенные для впечатления; Это примеры систем искусственного интеллекта, фактически завершающих такие сложные многоэтапные рабочие процессы, которые работники знаний выполняют ежедневно.

Это представляет собой философский сдвиг от нынешнего поколения помощников ИИ, которые преуспевают в разговоре, но борются с исполнением. В то время как конкуренты сосредоточены на том, чтобы сделать свои модели более человечными, Moonshot приоритет, что делает их более полезными. Различие имеет значение, потому что предприятиям не нужен AI, который может пройти тест на Тьюринг — им нужен ИИ, который может пройти тест на производительность.

Настоящий прорыв не в какой -либо единой возможности, а в бесшовной оркестровке нескольких инструментов и услуг. Предыдущие попытки «агента» AI требовали обширного инженера, тщательного дизайна рабочего процесса и постоянного человеческого надзора. Kimi K2, по -видимому, управляет когнитивными накладными расходом разложения задач, выбора инструментов и восстановления ошибок — разницу между сложным калькулятором и подлинным помощником мышления.

Великая конвергенция: когда модели с открытым исходным кодом наконец -то поймали лидеров

Выпуск Kimi K2 знаменует собой точку перегиба, которую отраслевые наблюдатели предсказывали, но редко стали свидетелями: в тот момент, когда возможности ИИ с открытым исходным кодом искренне сходится с запатентованными альтернативами.

В отличие от предыдущих «убийц GPT», которые преуспели в узких областях, в то же время не имея практических применений, Kimi K2 демонстрирует широкую компетентность на полном спектре задач, которые определяют общий интеллект. Он пишет код, решает математику, использует инструменты и завершает сложные рабочие процессы-все в то же время свободно доступно для модификации и самоуверенности.

Эта конвергенция приходит в особенно уязвимый момент для сотрудников ИИ. OpenAI сталкивается с растущим давлением, чтобы оправдать свою оценку в размере 300 миллиардов долларов, в то время как антропическая борьба за то, чтобы дифференцировать Клода на все более многолюдном рынке. Обе компании построили бизнес -модели, основанные на поддержании технологических преимуществ, которые, как предполагает Kimi K2, может быть эфемерным.

Время не случайно. По мере того, как архитектуры трансформатора созревают и демократизируют методы обучения, конкурентные преимущества все чаще меняются от необработанной способности к эффективности развертывания, оптимизации затрат и эффектов экосистемы. Сауншот, кажется, понимает этот переход интуитивно, позиционируя Kimi K2 не как лучшего чат -бота, а более практичный основа для следующего поколения приложений ИИ.

Теперь вопрос не заключается в том, могут ли модели с открытым исходным кодом соответствовать запатентованным-Kimi K2 доказывает, что они уже есть. Вопрос заключается в том, могут ли должностные лица адаптировать свои бизнес -модели достаточно быстро, чтобы конкурировать в мире, где их основные технологические преимущества больше не являются защиты. Основываясь на выпуске в пятницу, этот период адаптации стал значительно короче.

Источник

Предыдущая статья

XENIA

Следующая статья

История консолей PlayStation, часть 2 — портативные консоли Sony

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Пожалуйста, введите ваш комментарий!

пожалуйста, введите ваше имя здесь

Вы ввели неверный адрес электронной почты!

пожалуйста, введите свой адрес электронной почты здесь

Moonshot AI Kimi K2 превосходит GPT-4 в ключевых тестах-и это бесплатно

Дэвид встречается с Голиафом: Как Kimi K2 превосходит модели на миллиард долларов Силиконовой долины.

Прорыв Muonclip: почему этот оптимизатор может изменить экономику обучения искусственного интеллекта

Открытый исходный код как конкурентное оружие: Радикальная ценовая стратегия Moonshot предназначена для центров прибыли Big Tech

От демонстрации до реальности: почему возможности агента Kimi K2 сигнализируют о конце театра Чатбота

Великая конвергенция: когда модели с открытым исходным кодом наконец -то поймали лидеров

Судья отклоняет большую часть иска о нарушении авторских прав Сары Сильверман против OpenAI

Исследователи Apple представляют «KeyFramer»: инструмент AI, который анимирует неподвижные изображения, используя LLMS

Salesforce выкатывает нативного генеративного ИИ внутри Slack: вот как это работает

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Популярное

Зловред в 3D-модели

ИИ-агенты в организации: управляем рисками

PIN-код, отпечаток или сканирование лица: какой способ разблокировки надежнее?

Все о CVSS — как развивалась оценка уязвимостей

Последние комментарии

ВЫБОР РЕДАКЦИИ

iPhone больше не безопасен: изучаем DarkSword и Coruna

Как ИИ-агенты меняют интеллектуальный труд: исследование Гарварда и Perplexity

QR-код, да не тот

ПОПУЛЯРНОЕ

Форум CSTB.PRO.MEDIA 2026 раскрыл содержание деловой программы

Слежка через камеру: миф или правда

Онлайн-знакомства и безопасность

КАТЕГОРИИ

О НАС

СЛЕДИТЕ ЗА НАМИ