Ми можемо отримувати комісію з посилань на цій сторінці.
Додаток Gemini AI від Google очолює рейтинги найпопулярніших завантажень як в Apple App Store, так і в Android Store після додавання безкоштовної функції генерації зображень під назвою “Nano Banana” у серпні. Проте Google – не єдина технологічна корпорація, що пропонує мобільний AI-асистент з можливістю створювати зображення безпосередньо на смартфоні.
Метою було визначити найкращий інструмент AI для генерації зображень на мобільних пристроях, тож порівняли три основні рішення: Gemini від Google (з використанням Nano Banana), iPhone-версію ChatGPT від OpenAI та Meta AI від компанії Meta. Провели справжнє змагання у створенні зображень, щоб порівняти їх можливості. Хоча переможець і виявився, результати не були однозначними.
Для оцінки кожного застосунку використовували однакові базові запити, які можуть зацікавити середньостатистичного користувача.
Видалення об’єкта із зображення
В якості оригінального фото обрали фото моєї мами із завданням: «Видалити чашку з руки моделі.»
Автор фото: Стівен Джонсон
Результати:
- Gemini: Натуральне видалення чашки з додаванням руки у зручній позі, що створює враження, ніби мама саме зробила вагому ремарку. При цьому оригінальне зображення майже не було змінено, відповідно до запиту.
- ChatGPT: Видалив не лише чашку, а і всю праву руку, розгладив зморшки, прибрав волосинки, змінив колірну гаму на більш оранжеву та трохи підкоригував напрямок погляду. Ці зміни не були запитані і погіршили якість фотографії.
- Meta AI: Створив з пальцями анімаційну, неприродну форму, залишив руку у позі тримання чашки, що створює відчуття невдалого фотошопу.
Переможець: Gemini
Найгірший результат: ChatGPT
Розширення фону зображення
Використовували селфі зі завданням: «Розширити фон зображення і видалити слід від поту.»
Автор фото: Стівен Джонсон
Результати:
- Gemini: Амбітно розширив фон, вдало відтворив частини велосипеда і багажника, додав віддалений автомобіль, проте змінив контур гір і зменшив насиченість червоних тонів.
- ChatGPT: Помірковано доповнив фон без зміни кольорів, але шкіра моделі придбала пластмасовий вигляд, характерний для багатьох AI-зображень.
- Meta AI: Не підтримує функцію розширення фону, тому у завданні не брав участі.
Переможці: Gemini та ChatGPT
Найгірший результат: Meta AI
Створення зображення для обкладинки брошури
У цьому тесті залишили ширший творчий простір, однак дали конкретний контекст і стиль — «Я роблю брошуру для свого закритого клубу. Згенеруйте малярське зображення двох заможних людей, які грають у теніс.»
Результати:
- Gemini: Зобразив двох заможних людей на тенісному корті з мансандою на задньому плані, проте художній стиль був демократичним, а пози гравців не відповідали типовій грі в теніс.
- ChatGPT: Відповів “малярським” стилем із розміщенням двох гравців у дружній грі в мікс-дублях.
- Meta AI: Зображення виглядало похмуро, скоріше як доказ у розлученні, що не є гумористичним.
Переможець: ChatGPT
Найгірший результат: Meta AI
Відомий персонаж у незвичайній ситуації
Для перевірки здатності AI створювати портрети вигаданих або реальних осіб попросили: «Згенеруйте фото Девіда Боуї під час дослідження печер.»
Результати:
- Gemini: Зробив ексцентричний портрет Боуї з фантастичним світловим мечем і незвичайним головним убором.
- ChatGPT: Не згенерував жодного зображення.
- Meta AI: Надала дуже реалістичний портрет старшого періоду Девіда Боуї, що виглядає настільки природно, наче справжнє фото.
Переможець: Meta AI
Найгірший результат: ChatGPT
Малюнок однопанельного коміксу
Використали формат коміксу у стилі відомого “The Far Side” від Гері Ларсона з підписом: “Справжня причина, чому Ларрі запізнився на роботу.”
Результати:
- Gemini: Створив динамічне та дещо загадкове зображення з елементами гумору і несподіваних деталей (обірване дверне полотно, розлючена гуска, валіза з грошима, НЛО). Не копіював стиль Гері Ларсона, але підпис додав коректно.
- ChatGPT: Зображення найбільше нагадує стиль оригінального “The Far Side”, хоча і не передає оригінального тонкого гумору, підпис поставлений правильно. Проте обмеження по кількості токенів для безкоштовного користування вплинуло на можливість швидко створювати вдосконалені версії. Потрібна підписка за $19.99 на місяць для необмеженої роботи.
- Meta AI: Результат виглядає пасивним і неналежно інтерпретує запит, що свідчить про поверхневе прочитання інструкції.
Переможець: Гері Ларсон (автор оригінального коміксу)
Найгірший результат: Комедія як жанр
Франкенштейн на стендапі
Запит: «Згенеруйте фотореалістичне зображення Франкенштейна, що виступає зі стендап-комедією.»
Результати:
- Gemini: Незвичний монстр, навколо якого люди-персонажі та вампіри, створюють атмосферу “монстра, що загубився між світами.”
- ChatGPT: Відповів яскравим і виразним образом Франкенштейна, що перебуває у гарному настрої на сцені.
- Meta AI: Намалював пригніченого монстра зі змістом «Нам судилося померти!», що також викликало роздуми.
Переможець: Усі три — нікого не виділяють
Примітка: Жоден AI не вказав, що Франкенштейн — це ім’я доктора, а не монстра.
Остаточне випробування: Рекурсивна генерація зображення
Для заключного тесту подали весь текст статті з інструкцією: «Згенеруйте зображення для цієї блог-публікації.»
Результати:
- Gemini: Показав розуміння завдання та створив релевантне зображення.
- ChatGPT: Надала звичне розкладне зображення-грид.
- Meta AI: Надала неоднозначний образ, який можна інтерпретувати як перекручення сенсу тенісного матчу.
Переможець: Gemini
Найгірший результат: Мистецтво
Загальна оцінка
Додаток Gemini здобув популярність через швидке і близьке до очікувань генерування різноманітних зображень. Його зовнішній інтерфейс є безкоштовним, на відміну від ChatGPT, який пропонує необмежену кількість зображень за підпискою $19.99 на місяць. Meta AI теж є безкоштовним і має деяку чарівність, але іноді неправильно тлумачить запити і не підтримує деякі функції, наприклад, розширення фону. Водночас, в окремих випадках Meta AI видав якісний портрет Девіда Боуї.