Я випробував ChatGPT, Gemini та Grok для створення зображень

Олена Ткач

15 Жовтня, 2025

Протягом останніх кількох місяців провідні технологічні гіганти активно презентували свої інструменти для генерації зображень, викликаючи неабиякий резонанс у медіа та серед користувачів. Однак, результати, які вони демонструють, з погляду практичного застосування, залишають далеко не найкращі враження.

Google Gemini, наприклад, обіцяє:

  • “Створення, трансформація та редагування зображень за допомогою простих текстових підказок, а також поєднання кількох зображень в одне у самій платформі Gemini”.
  • “Злиття до трьох зображень для формування нового твору, створення сюрреалістичного мистецтва, поєднання різнорідних фотоелементів або бездоганне змішування об’єктів, кольорів і текстур”.

X позиціонує свою систему як:

  • “Передовий інструмент, що перетворює текстові описи у високоякісні зображення, керуючись сучасними нейронними мережами Grok”.
  • Засіб, який чудово розуміє та інтерпретує складні візуальні концепції, корисний для креаторів, бізнесів і ентузіастів штучного інтелекту, які прагнуть отримати вражаючі візуальні матеріали на основі передових технологій.

OpenAI також заявляє:

  • “Розблокування корисного й цінного процесу генерації зображень на основі нативної мультимодальної моделі, що забезпечує точні, реалістичні фотографічні результати”.
  • “Ми давно вважали, що генерація зображень має бути однією з основних функцій наших мовних моделей, саме тому найновіший і найпотужніший генератор зображень інтегровано у GPT-4o”.
  • “Результатом стала генерація, що не лише приваблива, але й функціональна”.

Попри такі обіцянки, у діловому користуванні користувачі найчастіше стикаються з цікавим парадоксом: з одного боку, продукт виглядає привабливо, проте на практиці «корисність» стає сумнівною. Обіцянки про можливість миттєво замінити маркетингових фахівців і створювати «якісні», «корисні та гарні» зображення в реальності не знаходять підтвердження.

Перша спроба створення AI-зображення

Для демонстрації було використано найпростіший приклад: попросив три платформи — Gemini, ChatGPT і Grok — створити зображення:

“Створіть зображення йоркширського тер’єра, який грає в бейсбол. Він повинен стояти у правильній позиції на домашній базі, дивитися в напрямку зовнішнього поля та бити м’яч для хоум-рану.”

Результати:

  • Gemini створила зображення, яке мало певну унікальність, але не відповідало очікуванням.
  • Grok видав зображення, схоже на попереднє, яке не відповідало завданню.
  • ChatGPT запропонував найближче до бажаного, але також далеке від ідеалу.

Друга спроба корекції

Наступною була команда, що вимагала уточнення:

“Зображення не виглядає реалістично. Собака має стояти на домівці як праворукий бейсболіст і бити м’яч у напрямку зовнішнього поля. Будь ласка, скорегуйте.”

У відповідь:

  • Gemini вибачився за попередню помилку, пообіцяв виправити і згенерував нове більш реалістичне зображення йоркширського тер’єра саме в потрібній позі.
  • Grok і на другий раз створив майже ідентичне перше зображення.
  • ChatGPT фактично повернувся до попередньої версії, ігноруючи вказані зміни.

Третя спроба уточнення

Оскільки результати були незадовільними, було надіслано ще одне прохання:

“Ви фактично вийшли на те саме зображення, що й раніше. Будь ласка, повторно створіть зображення відповідно до мого попереднього уточнення.”

Відповіді:

  • Gemini знову вибачився та запропонував нове, поліпшене зображення.
  • Grok і ChatGPT не забезпечили жодних вибачень і згенерували практично ті самі версії зображень без належного коригування.

Цей безкінечний цикл показує, що системи не завжди здатні реалізувати конкретні запити ідеально з першої спроби. Хоч і звучить це як надмірна вимогливість, проте для комерційного застосування точність та відповідність мають вирішальне значення.

Потрібно зрозуміти:

  • Чи відрізняється користувач за навичками «створення підказок» від типової аудиторії? — імовірно, ні.
  • Чи можуть професіонали або співробітники компаній досягти кращих результатів? — можливо, але важко це гарантувати.
  • Чи варто витрачати великі кошти на найм маркетологів для генерації подібних зображень? — сумнівно, враховуючи, що результати залишаються далекими від очікувань.

Варто наголосити, що всі платформні чат-боти працюють дуже швидко (хоча ChatGPT помітно поступається по швидкості візуальній генерації іншим двом сервісам). Водночас, продукт, який виходить у кінці, часто має типовий «штучний» вигляд і не може бути одразу використаний у професійних цілях без додаткової обробки чи пошуку альтернативних джерел, наприклад, стокових фото.

Ще більш дивним є факт, що більшість користувачів оплачують підписку на такі сервіси, попри те, що ці останні часто не виконують повною мірою своїх функцій — і немає ніякої можливості домогтися повернення коштів.

Це вказує на типовий підхід програмних компаній, які прагнуть максимально швидко вивести продукт на ринок і потім довіряють користувачам виявити всі недоліки. Часто можна почути жарт, що добре, що ці компанії не створюють літаки.

Поряд із цим варто відзначити й значний прогрес технологій: неможливо не визнати, що їх розвиток від перших версій до сьогоднішнього дня є значним і вражаючим. Соцмережі демонструють багато чудових AI-відео та зображень, але питання залишається: хто стоїть за їх створенням? Чи це AI-розробники з достатьою майстерністю та часом, щоб довго працювати над деталями? Чи пересічні користувачі мають такі ж можливості?

Причини численних невдач AI-проектів та скарг бізнесів на нерезультативність у створенні візуального контенту криються в тому, що великі корпорації роблять гучні PR-заяви:

  • “Створюйте, перетворюйте і редагуйте зображення за допомогою простих текстових запитів”;
  • “Преображайте свої ідеї на приголомшливі зображення”;

та інші подібні гасла. Відповідно користувачі, сприймаючи обіцянки буквально, розчаровуються у реальних можливостях продуктів.

Отже, AI-інструменти для генерації зображень, без сумніву, захоплюють. Вони дарують розвагу і певне творче задоволення, однак станом на сьогодні ще не стали практичними та надійними інструментами для більшості бізнес-завдань. Їх потенціал залишається радше іграшкою, ніж робочим інструментом, хоча перспективи продовжують розвиватися.

author avatar
Олена Ткач
Фахівчиня з цифрового маркетингу. Пише просто про складне: штучний інтелект, мобільні додатки, технології в Україні.Гасло: «Технології — це просто. Особливо, коли пояснюю я».

різне