Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Bright Data, израильская компания Scrapeing Company, которая победила Meta и Elon Musk’s X в федеральном суде, обнародовала комплексный набор инфраструктуры искусственного интеллекта в среду, предназначенный для того, чтобы предоставить систему искусственного интеллекта, предоставляемый доступ к веб-данным в режиме реального времени-способность, которую компания утверждает, что крупные платформы технологий пытаются монолизировать.
Объявление о глубоком поиске, Browser.ai и расширенных протоколах сбора данных представляет собой драматическое расширение для десятилетней компании, которая превратилась из специализированной услуги по цене в Интернет в то, что генеральный директор или Lenchner называет «уникальным уровнем инфраструктуры для компаний AI». Этот шаг происходит в качестве компаний искусственного интеллекта, которые все чаще пытаются получить доступ к текущей веб -информации, необходимой для питания чат -ботов, автономных агентов и других приложений искусственного интеллекта.
«Интеллект сегодняшних LLMS больше не является его ограничивающим фактором; доступ к доступу», — сказал Ленчнер в эксклюзивном интервью VentureBeat. «Мы потратили последнее десятилетие, борясь за открытый доступ к общедоступным веб-данным, и эти новые предложения приведут нас к следующей главе в нашем путешествии, одна из которых характеризуется по-настоящему доступными данными и последующим ростом контекстных агентов».
Запуск следует за громкими юридическими победами Bright Data в 2024 году, когда федеральные судьи отклонили судебные процессы как от Meta, так и из X, утверждая, что компания незаконно покраснела свои платформы. Эти постановления установили решающий юридический прецедент, определяющий то, что составляет «публичные данные» в Интернете — информация, которую можно просмотреть без входа в систему и, следовательно, может быть юридически собрано и используется.
Суд победит против Meta и X устанавливает юридический прецедент для прав в Интернете
Судебные дела показали, что как Meta, так и X были яркими клиентами данных, даже предъявляющими иск на компанию, подчеркивая противоречивую позицию, которую многие технологические гиганты заняли сеть. Постановления имеют более широкие последствия для индустрии ИИ, которая в значительной степени зависит от веб -данных для обучения и управления языковыми моделями.
«В суде было выявлено, что они оба были ярким клиентом данных, потому что всем нужны данные, все, особенно те, кто строит модели», — пояснил Ленчнер. «Мы единственная компания, которая имеет финансовые ресурсы, и я бы даже сказал, что смелость сделать это».
Судья Уильям Алсуп, который руководил делом X, писал, что предоставление компаниям социальных сетей «бесплатно решать, на любой основе, которые могут собирать и использовать риски данных», создавая «информационные монополии, которые будут переживать общественные интересы». Постановление установило, что данные, доступные для просмотра без входа в систему, представляют собой общественную информацию, которая может быть погашческой царапин.
Яркие данные ранее подавали контактный костюм против X, утверждая, что платформа нарушила антимонопольные законы, пытаясь создать монополию данных в пользу компании Musk’s AI, XAI. Однако с тех пор этот случай был урегулирован. «Несмотря на то, что термины конфиденциальны, яркие данные никогда не отступали из-за своего фундаментального убеждения, что публичные данные должны быть доступны для общественности. В соответствии с этим убеждением, мы рады сообщить, что яркие данные будут продолжать предоставлять те же ведущие услуги, которые он всегда имеет, и что наши клиенты ожидают»,-сказал Ленчнер.
Глубокий поиск и браузер.
Новые продукты компании рассматривают то, что Lenchner идентифицирует как три основных требования для систем искусственного интеллекта: алгоритмы, вычисление питания и доступ к данным. Хотя яркие данные не разрабатывают алгоритмы ИИ и не предоставляют вычислительные ресурсы, они направлены на то, чтобы стать окончательным решением для третьего требования.
Глубокий поиск функционирует как исследовательский механизм естественного языка, предназначенный для ответа на сложные многослойные бизнес-вопросы в режиме реального времени. В отличие от поисковых систем общего назначения или чат-ботов ИИ, которые предоставляют резюме, Deep Lookup специализируется на комплексных результатах для запросов, начиная с «Найти все». Например, пользователи могут попросить «все судоходные компании, которые проходили Панамские и Суэцкие каналы в 2023 году, чьи доходы 3 квартала снизились более чем на 2 процента».
Система основана на массивном веб -архиве Bright Data, который в настоящее время содержит более 200 миллиардов HTML -страниц и добавляет 15 миллиардов в месяц. Ожидается, что к следующему году архив превысит 500 миллиардов страниц. «Это не только случайные веб -страницы, это на самом деле то, что заботится мир, потому что наши 20 000 клиентов представляют миллиарды пользователей интернета», — отметил Ленчнер.
Browser.ai представляет то, что компания называет «первым не блокируемым в отрасли браузером». Облачная служба, разработанная специально для автономных агентов искусственного интеллекта, имитирует поведение человека для доступа к веб-сайтам без запуска систем обнаружения бот. Он поддерживает команды естественного языка и может выполнять сложные веб -взаимодействия, такие как бронирование рейсов или бронирование ресторанов.
По словам компании, инфраструктура браузера уже ежедневно обрабатывает более 150 миллионов веб -действий. «Почти все они являются клиентами», — сказал Ленчнер о компаниях -агентах, которые привели к значительному финансированию. «Потому что то, что мы выяснили, и они выяснили, так это то, что мы решаем эту проблему ввода на веб -сайт, не будучи блокированным и выполняя веб -действия на веб -сайте».
MCP-серверы (протокол контекста модели) обеспечивает уровень управления с низкой задержкой, позволяющий агентам искусственного интеллекта искать, ползуть и извлекать живые данные в режиме реального времени. Протокол позволяет разработчикам создавать системы ИИ, которые могут действовать на текущую информацию, а не полагаться исключительно на учебные данные.
Патентный портфель и прокси -сеть создают конкурентный ров против блокировки
Конкурентное преимущество Bright Data связано с тем, что Ленчнер описывает как «одержимость» с преодолением механизмов блокировки веб -сайта. Компания имеет более 5500 патентных заявлений на свои технологии и управляет крупнейшей в мире прокси -сетью с более чем 150 миллионами IP -адресов в 195 странах.
«У нас такой хороший взгляд в Интернет», — объяснил Ленчнер. «В течение долгого времени мы наносили на карту интернет, и уже долгое время мы также архивируем большие куски Интернета».
Подход компании включает в себя сложные методы для имитации поведения человека, используя реальные устройства, IP -адреса и отпечатки пальцев браузеров, а не простые автоматизированные сценарии. Это делает обнаружение и блокирование чрезвычайно трудным для веб -сайтов.
«Единственный способ заблокировать нас практически, — поставить данные за вход, тогда мы даже не попробуем», — сказал Ленчнер. «Иногда существует новая логика блокировки, которую мы не решаем немедленно. Наша исследовательская команда займет 12 часов, три дня, это самое большее, что было, и мы откроем ее».
Выручка превышает 100 миллионов долларов, поскольку спрос на ИИ взрывается после чатгпта
В то время как яркие данные остаются в частной собственности в частной инвестиционной компании, Lenchner подтвердил, что с Venturebeat годовой повторяющийся доход компании превысил 100 миллионов долларов США несколько лет назад. С момента запуска Chatgpt в конце 2022 года бизнес добился взрывного роста, когда компании искусственного интеллекта пытались получить доступ к данным обучения и информации в режиме реального времени.
«Начиная с марта 2023 года, что в значительной степени, когда GPT-3 изменил мир, ИИ или то, что мы называем данные для ИИ, вариант использования просто взорвался для нас как компании»,-сказал Ленчнер. «Все остальное также растет, потому что каждому нужно больше данных, точка. Но этот случай использования похож на то, что мы видели раньше».
Компания обслуживает более 20 000 предприятий, в том числе компании из списка Fortune 500 и крупные лаборатории ИИ. Традиционные клиенты включают платформы электронной коммерции, отслеживая цены конкурентов, фирмы по финансовым услугам, ищущие рыночную разведку, и предприятия, проводящие бизнес-исследования.
Соответствие GDPR и этические методы отличаются от конкурентов
Bright Data инвестировала в инфраструктуру соответствия в инфраструктуре соответствия для решения проблем конфиденциальности вокруг сбора данных. Компания следует европейским правилам GDPR и Калифорнии CCPA, автоматически уведомляя отдельных лиц, когда их личная информация собирается из общественных источников и предоставление вариантов удаления.
«Регламент и законодательство ясны с тех пор, как европейские GDPR и, по крайней мере, Калифорния и CCPA -правила», — пояснил Ленчнер. «Если мы собрали ваш адрес электронной почты, например, мы автоматически отправим вам электронное письмо с надписью:« Эй, это то, кем мы являемся. Мы собрали вашу личную информацию из общественного домена. Вот огромная кнопка, которую вы можете нажать, если вы хотите просмотреть ее, и вы можете попросить его удалить ».
Компания поддерживает большую группу по соблюдению и обширную документацию о своей практике, которая оказалась ценной во время судебного разбирательства. «Предприятия особенно любят нас, потому что у нас есть наша этическая позиция, которая была изучена в судах США дважды», — сказал Ленчнер.
Web Access Wars усиливается, поскольку технические гиганты ищут монополии данных
Врастание за доступ к веб -данным отражает более широкую напряженность в отрасли искусственного интеллекта в отношении контроля информации и конкурентного преимущества. По мере того, как системы ИИ становятся более сложными, доступ к текущим, всеобъемлющим веб -данным становится все более ценным — и спорным.
Ленчнер предсказывает, что сеть станет «более закрытым» с течением времени, аналогично тому, как Google поддерживает эксклюзивный доступ к своим возможностям в Интернете, в то время как другие должны использовать альтернативные услуги. «Несколько технических гигантов получат бесплатный доступ к каждому веб -сайту со своими агентами», — сказал он. «Остальные должны будут использовать нашу инфраструктуру или чужую инфраструктуру».
Компания также наблюдает за новыми тенденциями, в том числе предприятиями, соскребающими чат -боты искусственного интеллекта для маркетинговых целей и появление новых протоколов, таких как MCP, которые позволяют агентам ИИ более эффективно взаимодействовать с веб -службами.
«Все эти ребята, которые потребляют огромные объемы данных, и все мы используем их, все идут на создание мозгов роботов», — сказал Ленчнер. «Это нормально, что у вас есть чат -бот, который разговаривает с человеком, потому что это в конце концов, что сделает робот».
Мозги робота и экономика агента способствуют следующему этапу роста
Преобразование Bright Data от услуги сетевого скребки в поставщика инфраструктуры искусственного интеллекта отражает быстро развивающиеся потребности индустрии искусственного интеллекта. Поскольку компании стремятся развернуть агенты ИИ и автономные системы, доступ к веб-данным в реальном времени становится таким же решающим, как и вычислительная мощность и алгоритмическая сложность.
Юридические прецеденты, установленные благодаря победам в суде Bright Data в суде, могут оказаться такими же значительными, как и его технические инновации, потенциально формируя то, как вся индустрия искусственного интеллекта доступно и использует веб -информацию. В связи с тем, что крупные технологические платформы все чаще ограничивают доступ к данным, одновременно разработав свои собственные системы ИИ, независимые поставщики инфраструктуры, такие как яркие данные, могут стать важными для поддержания конкурентного баланса в экосистеме ИИ.
«Мы инфраструктурная компания», — подчеркнул Ленчнер. «Мы очень талантливые инженеры, которые почти никуда идут, просто сядьте с нашими компьютерами и пишем код. Мы делаем это хорошо. У нас нет намерений делать что -либо еще».
Во вторник Beta Deep Lookup выпускается во вторник для бизнес -клиентов, с общим публичным доступом, доступным через список ожидания. Серверы Browser.ai и MCP уже доступны для корпоративных клиентов через существующую платформу Bright Data.
Источник


