Протягом останніх кількох місяців провідні технологічні гіганти активно презентували свої інструменти для генерації зображень, викликаючи неабиякий резонанс у медіа та серед користувачів. Однак, результати, які вони демонструють, з погляду практичного застосування, залишають далеко не найкращі враження.
Google Gemini, наприклад, обіцяє:
- “Створення, трансформація та редагування зображень за допомогою простих текстових підказок, а також поєднання кількох зображень в одне у самій платформі Gemini”.
- “Злиття до трьох зображень для формування нового твору, створення сюрреалістичного мистецтва, поєднання різнорідних фотоелементів або бездоганне змішування об’єктів, кольорів і текстур”.
X позиціонує свою систему як:
- “Передовий інструмент, що перетворює текстові описи у високоякісні зображення, керуючись сучасними нейронними мережами Grok”.
- Засіб, який чудово розуміє та інтерпретує складні візуальні концепції, корисний для креаторів, бізнесів і ентузіастів штучного інтелекту, які прагнуть отримати вражаючі візуальні матеріали на основі передових технологій.
OpenAI також заявляє:
- “Розблокування корисного й цінного процесу генерації зображень на основі нативної мультимодальної моделі, що забезпечує точні, реалістичні фотографічні результати”.
- “Ми давно вважали, що генерація зображень має бути однією з основних функцій наших мовних моделей, саме тому найновіший і найпотужніший генератор зображень інтегровано у GPT-4o”.
- “Результатом стала генерація, що не лише приваблива, але й функціональна”.
Попри такі обіцянки, у діловому користуванні користувачі найчастіше стикаються з цікавим парадоксом: з одного боку, продукт виглядає привабливо, проте на практиці «корисність» стає сумнівною. Обіцянки про можливість миттєво замінити маркетингових фахівців і створювати «якісні», «корисні та гарні» зображення в реальності не знаходять підтвердження.
Перша спроба створення AI-зображення
Для демонстрації було використано найпростіший приклад: попросив три платформи — Gemini, ChatGPT і Grok — створити зображення:
“Створіть зображення йоркширського тер’єра, який грає в бейсбол. Він повинен стояти у правильній позиції на домашній базі, дивитися в напрямку зовнішнього поля та бити м’яч для хоум-рану.”
Результати:
- Gemini створила зображення, яке мало певну унікальність, але не відповідало очікуванням.
- Grok видав зображення, схоже на попереднє, яке не відповідало завданню.
- ChatGPT запропонував найближче до бажаного, але також далеке від ідеалу.
Друга спроба корекції
Наступною була команда, що вимагала уточнення:
“Зображення не виглядає реалістично. Собака має стояти на домівці як праворукий бейсболіст і бити м’яч у напрямку зовнішнього поля. Будь ласка, скорегуйте.”
У відповідь:
- Gemini вибачився за попередню помилку, пообіцяв виправити і згенерував нове більш реалістичне зображення йоркширського тер’єра саме в потрібній позі.
- Grok і на другий раз створив майже ідентичне перше зображення.
- ChatGPT фактично повернувся до попередньої версії, ігноруючи вказані зміни.
Третя спроба уточнення
Оскільки результати були незадовільними, було надіслано ще одне прохання:
“Ви фактично вийшли на те саме зображення, що й раніше. Будь ласка, повторно створіть зображення відповідно до мого попереднього уточнення.”
Відповіді:
- Gemini знову вибачився та запропонував нове, поліпшене зображення.
- Grok і ChatGPT не забезпечили жодних вибачень і згенерували практично ті самі версії зображень без належного коригування.
Цей безкінечний цикл показує, що системи не завжди здатні реалізувати конкретні запити ідеально з першої спроби. Хоч і звучить це як надмірна вимогливість, проте для комерційного застосування точність та відповідність мають вирішальне значення.
Потрібно зрозуміти:
- Чи відрізняється користувач за навичками «створення підказок» від типової аудиторії? — імовірно, ні.
- Чи можуть професіонали або співробітники компаній досягти кращих результатів? — можливо, але важко це гарантувати.
- Чи варто витрачати великі кошти на найм маркетологів для генерації подібних зображень? — сумнівно, враховуючи, що результати залишаються далекими від очікувань.
Варто наголосити, що всі платформні чат-боти працюють дуже швидко (хоча ChatGPT помітно поступається по швидкості візуальній генерації іншим двом сервісам). Водночас, продукт, який виходить у кінці, часто має типовий «штучний» вигляд і не може бути одразу використаний у професійних цілях без додаткової обробки чи пошуку альтернативних джерел, наприклад, стокових фото.
Ще більш дивним є факт, що більшість користувачів оплачують підписку на такі сервіси, попри те, що ці останні часто не виконують повною мірою своїх функцій — і немає ніякої можливості домогтися повернення коштів.
Це вказує на типовий підхід програмних компаній, які прагнуть максимально швидко вивести продукт на ринок і потім довіряють користувачам виявити всі недоліки. Часто можна почути жарт, що добре, що ці компанії не створюють літаки.
Поряд із цим варто відзначити й значний прогрес технологій: неможливо не визнати, що їх розвиток від перших версій до сьогоднішнього дня є значним і вражаючим. Соцмережі демонструють багато чудових AI-відео та зображень, але питання залишається: хто стоїть за їх створенням? Чи це AI-розробники з достатьою майстерністю та часом, щоб довго працювати над деталями? Чи пересічні користувачі мають такі ж можливості?
Причини численних невдач AI-проектів та скарг бізнесів на нерезультативність у створенні візуального контенту криються в тому, що великі корпорації роблять гучні PR-заяви:
- “Створюйте, перетворюйте і редагуйте зображення за допомогою простих текстових запитів”;
- “Преображайте свої ідеї на приголомшливі зображення”;
та інші подібні гасла. Відповідно користувачі, сприймаючи обіцянки буквально, розчаровуються у реальних можливостях продуктів.
Отже, AI-інструменти для генерації зображень, без сумніву, захоплюють. Вони дарують розвагу і певне творче задоволення, однак станом на сьогодні ще не стали практичними та надійними інструментами для більшості бізнес-завдань. Їх потенціал залишається радше іграшкою, ніж робочим інструментом, хоча перспективи продовжують розвиватися.