На початку цього місяця OpenAI презентував ChatGPT Atlas — «новий веб-браузер, створений на базі ChatGPT», який компанія просуває серед сотень мільйонів користувачів свого сервісу. Незвично для OpenAI, яка звикла поспішати і йти на випередження конкурентів, Atlas вийшов на досить переповнений ринок браузерів із підтримкою ШІ. Великі гравці, такі як Google та Microsoft, вже інтегрують чатботів та інші функції великих мовних моделей у свої браузери Chrome і Edge відповідно. З 2023 року Opera поступово впроваджує ШІ-функціональність у свої додатки, тоді як AI-пошукова система Perplexity раніше цього року представила власний браузер Comet з «агентськими» можливостями. У кінці 2024 року The Browser Company, творець Arc, оголосила про плани зосередити увагу на новому ШІ-орієнтованому браузері Dia. Навіть Firefox тепер має інтеграцію чатботів, залишаючи Safari від Apple — із його поодинокими Apple Intelligence функціями — останнім великим браузером без нового чат-інтерфейсу.
Кожен із цих браузерів по-своєму розуміє концепцію інтеграції або безпосередньої побудови браузера на базі генеративного ШІ, але можна виділити кілька спільних рис:
– Зручні в користуванні функції узагальнення, редагування та пошуку інформації.
– Здатність «спілкуватися з відкритими вкладками» (формулювання з Dia).
– Інтерфейсна тенденція розміщувати чат у правій бічній панелі — ймовірно, це стає аналогом «універсальної адресної панелі» чи вкладкового перегляду для сучасного періоду.
– Широка гама ролей, які користувачі формують із сервісами, подібними до ChatGPT — від інструментів для рідкісного пошуку та створення тексту до консультаційних асистентів, які інтерпретують всю цифрову діяльність.
– Архітектурна основа здебільшого ґрунтується на Chromium — відкритому проєкті, що підтримується Google.
Якщо говорити про унікальні функції в Atlas, яких раніше не було в інших браузерах, їх важко виявити. Навіть у демонстрації продукту основоположник компанії Сем Олтман не проявив особливого захоплення під час демонстрації узагальнення тексту, веб-пошуку та автоматичної бічної панелі чату. Насправді Atlas у теперішньому вигляді швидше нагадує інструмент для використання ChatGPT, ніж самостійний новаторський браузер. Це цілком логічно — OpenAI прагне у 2025 році здійснити те, що Google зробила з Chrome у 2008-му: сформувати у користувачів глибші стосунки з компанією, виходячи за межі окремого продукту та ускладнювати перехід до конкурентів. При цьому Atlas орієнтується прямо на Google: у будь-якому браузері, відкривши ChatGPT, користувач побачить пропозицію спробувати Atlas. Запустивши Atlas, користувач потрапляє в інтерфейс, що значно нагадує продукцію Google, зі стандартними вкладками «Пошук», «Зображення», «Відео» та «Новини». У демонстрації було підкреслено популярність пошукових запитів серед користувачів ChatGPT та показано, як браузер інтегрується з Google Docs. Це була цілком явна відсилка: Atlas «націлений» на Chrome.
Стратегія OpenAI вкладається у модель типової технологічної компанії з великим інтернет-продуктом і амбіціями зайняти всі шляхи поширення. Подібна логіка не тільки обумовила появу браузера Google, а й операційної системи Android, а також дала початок менш вдалим проєктам, наприклад, невдалій спробі Facebook створити власний смартфон. Якщо розглядати Atlas як стабільний браузер із низкою переваг для активних користувачів ChatGPT, він вже демонструє трансформацію OpenAI — від непевної, експериментальної неприбуткової організації до звичайної потужної компанії споживчого та корпоративного ринку, що тяжіє від ідеї штучного загального інтелекту до орієнтації на чіткі ключові показники ефективності (KPI). Винятком є одна особливість — Режим Агента.
OpenAI особливу увагу приділяє Режиму Агента, який «допомагає досліджувати та аналізувати інформацію, автоматизувати завдання, планувати події та бронювати зустрічі під час серфінгу в інтернеті». Ця функція вражає: у режимі агента браузер фактично бере на себе контроль над інтерфейсом, переходить між сторінками, рухає курсор, заповнює форми та супроводжує весь процес поясненнями в бічній панелі. Такий демонстраційний приклад вражає — «комп’ютер керує собою». Наприклад, коли я попросив його купити вовняні шкарпетки конкретного розміру та кольору, програма зайшла на сайт REI і поклала до кошика товар, досить близький до замовленого, перед тим як запропонувати авторизуватися. Аналогічно він замовив зубну нитку в чотирьох упаковках, щоб досягти мінімальної суми безкоштовної доставки Walmart. При пошуку авіаквитків на найближчі вихідні агент витратив кілька хвилин, досліджуючи сайти-агрегатори, докладно описуючи процес у бічній панелі: «Мені потрібно правильно організувати пошук і бронювання, щоб знайти найбільш відповідні та зручні варіанти». Було навіть створено Python-скрипт, який допоміг визначити поточний день і зрозуміти, що означає «цей суботній день». Результат був досягнутий: знайдено відповідний рейс. Цікаво, проте не факт, що я б довірив це завдання насправді.
З позиції продуктивності управління комп’ютером справляє враження. Для багатьох користувачів Atlas це перший досвід використання агентських інструментів, здатних багатоетапно виконувати завдання від імені користувача. Програмісти вже знайомі з подібним підходом через AI-помічників кодування, а користувачі Perplexity Comet або Opera Neon мали змогу випробувати майже ідентичну функціональність. Водночас, ця функція поки що знаходиться у певному «штучному» проміжному стані, в якому віра в те, що інструмент колись може стати корисним при більшій швидкості, розумінні та знанні користувача, переважає його теперішній потенціал.
Інакше кажучи, як і багато інших ІІ-продуктів, Режим Агента підтримується загальною вірою у неминуче та постійне експоненціальне покращення технологій. Наразі більшість людей, скоріш за все, будуть випробовувати цю функцію, гратися нею та, можливо, включати в уявлення про майбутнє, але не інтегрувати у повсякденний робочий процес. OpenAI наразі позиціонує її як «прев’ю» функції, доступної лише платним користувачам. Джош Міллер, засновник Browser Company, який на ранній стадії експериментував із подібними можливостями у Dia, зазначає, що такий підхід спочатку вражає, але з часом виявляється тупиковим або, принаймні, незручним способом взаємодії з інтернетом та штучним інтелектом. За словами Міллера, «навчити AI керувати комп’ютером як людина — це все одно, що розміщувати друкований журнал у ранньому вебі: виглядає футуристично, але не є креативним і не відповідає технологічній природі».
Спостерігаючи за тим, як ChatGPT неприродно рухається по інтерфейсу різних сайтів, можна провести аналогію з автономними автомобілями. Браузер, який імітує людину на рівні введення — рухається курсором, гортанням — більше нагадує звичайний автомобіль з гуманоїдним роботом за кермом, а не Waymo, де кермо вертиться унаслідок команд із систем, що безпосередньо взаємодіють із дорогою. Така демонстрація цікава, але змушує запитати: чому ми обираємо цей спосіб? Хіба не існують ефективніші методи для спілкування машини між собою?
Міллер пропонує відповідь, пов’язану радше з інтересами розробників, ніж із самою цінністю технології. The Browser Company нещодавно була придбана компанією Atlassian. Для OpenAI розробка систем, здатних виконувати складні команди за користувача, є ключовою метою — це шлях до широкомасштабної автоматизації та/або штучного загального інтелекту, залежно від того, якої дефініції компанія дотримується в конкретний день. AI-модель, що забезпечує корисну інформацію у чаті або виконує завдання за вказівками, — це вже корисний продукт. Але можливість мати AI, який проактивно взаємодіє з навколишнім світом на рівні, порівнянному з людиною або, точніше, співробітником, — ось що визначає величезну вартість стартапу.
Проте перед OpenAI стоїть безліч викликів. Одні широко обговорювані, складні для визначення — пов’язані з критеріями оцінки, варіаціями у визначеннях можливостей моделей, прогнозами масштабування. Інші більш буденні. Наприклад, щоб краще відповідати на запити, чатботам потрібні більші дані про користувачів, а для виконання завдань їм необхідне середовище, де користувачі автентифіковані у різних сервісах свого життя — тобто, потребують надзвичайно широких прав доступу та дозволів. ChatGPT в окремому вікні такого доступу не має, і отримати його від користувачів буває важко. Натомість ChatGPT, інтегрований у браузер, може бути авторизованим на десятках сайтів із збереженими способами оплати чи навіть робочим середовищем. Водночас таке широке делегування повноважень створює потенційну загрозу безпеці, про що багато хто в AI-спільноті вже говорив.
Правила, що сервіс або софт може отримати більше можливостей завдяки доступу до інших програм, — загальна технологічна аксіома. Це зазвичай управляється через офіційні партнерства та API. Розміщення OpenAI на рівні браузера — це спроба скористатися «батьківською шпариною». Адже саме там люди проводять більшість часу роботи на комп’ютерах, і через браузер проходить величезний потік цінної інформації. Для компанії, що тренує моделі, які імітують офісну роботу, мільйони сесій браузера — безцінне джерело інформації.
У Twitter оприлюднена думка користувача Олівера Андерсена, який описав досвід роботи з режимом агента ChatGPT як співпрацю з колегою з поганим настроєм — із необхідністю довго обговорювати прості завдання, що виглядає дещо безглуздо.
Для OpenAI було б ідеально, якби багато людей активно та масштабно використовували Режим Агента, однак це далеко не гарантовано. Така ситуація означає, що багато компаній мають дозволити «ботифікацію» своїх користувачів, не застосовуючи заходи боротьби з автоматизованими інструментами, подібні до тих, які реалізує Ticketmaster. До того ж, рекламні моделі монетизації не працюватимуть, якщо рекламодавцям показуватимуть оголошення не людям, а агентам ChatGPT. Atlas слід розглядати як демонстрацію намірів OpenAI — як попереджувальний крок на політичній шахівниці технологій. Перш ніж випустити власний браузер, компанія оголосила про партнерство з кількома сервісами для інтеграції їх безпосередньо у ChatGPT, щоб користувачі могли, наприклад, створювати плейлисти у Spotify або переходити від спілкування в чаті до роботи в інструменті продуктивності Canva. Такий підхід у порівнянні з агентським браузером виглядає набагато зручнішим, проте вимагає готовності партнерів, а лінійка на старті в основному складалася з компаній, які не бояться OpenAI, мало що можуть втратити або вже є їхніми великими клієнтами.
Ідеальний світ OpenAI, подібно до Google, Meta та Apple, передбачає, що всі інші технологічні продукти стають підпорядкованими додатками всередині власної платформи. Це дасть змогу користувачам ChatGPT безшовно керувати цифровим життям через інтерфейс компанії, а агентські можливості будуть вільні від обмежень, пов’язаних з безпекою, приватністю, конкуренцією чи людськими інтерфейсами. Багато компаній охоче співпрацюватимуть з популярним сервісом, але інші, які вважають OpenAI або ШІ загрозою для своїх бізнесів чи захищають свої власні дані, будуть обережними. Основні важелі впливу OpenAI — це величезна база користувачів і наратив про неминучість технологічного розвитку. Агентський браузер прагне поєднати ці чинники: функцію, яка може невдовзі стати поширеною серед користувачів і помітно покращитись.
Якщо створення екосистеми для інших компаній можна сприймати як ввічливе запрошення до такого майбутнього, то Atlas виконує роль своєрідного ультиматуму або загрози: «Якщо наразі ви не хочете співпрацювати з OpenAI, ваш вибір, але в цей час ми намагаємося переспрямувати вашу взаємодію з користувачами на себе — приховано і без вашої згоди». Capisce?