გასულ წელს Nano Banana-მ Gemini-ს ინტელექტი ფოტოების გენერაციასა და რედაქტირებაში შემოიტანა. ამ განახლებამ მილიონობით ადამიანს მისცა ძველი ფოტოების აღდგენის, ჩანახატებიდან ახალი დიზაინის შექმნისა და იდეების ვიზუალიზაციის ისეთი ხელსაწყოები, რომლებიც მანამდე წარმოუდგენელი იყო. თუმცა, Google-ის თავდაპირველი მიზანი ყოველთვის მულტიმოდალური სისტემის შექმნა გახლდათ — არქიტექტურის, რომელიც ინფორმაციას სხვადასხვა ფორმატში ერთდროულად აღიქვამს. დღეს ეს ხედვა სრულიად ახალ ეტაპზე გადადის. კომპანია წარმოადგენს Gemini Omni-ს — ახალ მოდელს, სადაც ხელოვნური ინტელექტის ღრმა ანალიტიკური აზროვნება უშუალოდ ვიზუალურ შემოქმედებას უერთდება.
Omni-ს მთავარი ძალა ნებისმიერი ტიპის შეყვანილი ინფორმაციიდან (Input) სრულიად ახალი კონტენტის შექმნაა, რაც ამ ეტაპზე ვიდეო გენერაციით იწყება. მომხმარებელს შეუძლია ერთმანეთს შეუთავსოს ფოტოები, აუდიო, ვიდეო და ტექსტი, რის შედეგადაც მიიღებს უმაღლესი ხარისხის ვიდეო რგოლებს, რომლებიც სამყაროს შესახებ Gemini-ს რეალურ ცოდნას ეფუძნება. რაც მთავარია, ვიდეოების რედაქტირება ახლა უკვე ჩვეულებრივი, ადამიანური დიალოგის რეჟიმშია შესაძლებელი. Omni ოჯახის პირველი წარმომადგენელი, Gemini Omni Flash, უკვე ეშვება Gemini-ს აპლიკაციაში, Google Flow-სა და YouTube Shorts-ში, ხოლო სამომავლოდ მოდელი გამომავალი კონტენტის სახით ფოტოებისა და აუდიოს სრულ მხარდაჭერასაც დაამატებს.
ვიდეოების ტრანსფორმაცია ბუნებრივი ენით

Gemini Omni-ს ერთ-ერთი ყველაზე შთამბეჭდავი ფუნქცია სწორედ დიალოგის გზით ვიდეოს რედაქტირებაა, სადაც ყოველი ახალი ინსტრუქცია წინა კონტექსტს ეყრდნობა. პერსონაჟები ინარჩუნებენ იდენტობას (Character Consistency), ფიზიკის კანონები დაცულია, ხოლო სისტემას ზუსტად ახსოვს, რა ხდებოდა წინა კადრებში. ეს ნიშნავს, რომ თქვენ შეგიძლიათ შეცვალოთ კონკრეტული დეტალები ან სრულად გარდაქმნათ გარემო, გადააკეთოთ მოქმედება, დაამატოთ ახალი პერსონაჟები და ობიექტები ისე, რომ ორიგინალური სცენის ხაზი არ დაიკარგოს. კადრების შექმნა, რომელთა გადაღებაც ადრე ფიზიკურად შეუძლებელი იყო, ახლა მხოლოდ რამდენიმე წინადადების სწორად ჩამოყალიბებაზეა დამოკიდებული.

სამყაროს კანონების გააზრება და რეალისტური ნარატივი
Omni არ არის უბრალოდ ვიზუალური შაბლონების ამომცნობი; ის რეალურად აანალიზებს, თუ რა უნდა მოხდეს შემდეგ კადრში. მოდელს აქვს ძალების, გრავიტაციის, კინეტიკური ენერგიისა და სითხის დინამიკის გაუმჯობესებული ინტუიციური აღქმა, რაც მოძრაობებს მაქსიმალურად ბუნებრივს ხდის. ამას ემატება Gemini-ის ისტორიული, სამეცნიერო და კულტურული კონტექსტების ცოდნა. შედეგად, მოკლე ტექსტური მინიშნებებიდანაც კი შესაძლებელია რთული, საგანმანათლებლო ან შემოქმედებითი იდეების ზუსტი ვიზუალიზაცია, რაც ფოტორეალიზმსა და შინაარსობრივ ამბავს (Storytelling) შორის არსებულ ბარიერს სრულად შლის.

უნივერსალური მულტიმოდალობა და პერსონალური ავატარები.
მოდელი ნებისმიერ საწყის მასალას — იქნება ეს პერსონაჟის ფოტო, ჩანახატი, აუდიო ფაილი თუ ტექსტური აღწერა — ერთიან, ჰარმონიულ ვიდეო პროდუქტად აქცევს (სტარტზე აუდიო რეფერენსებიდან მხოლოდ ხმის ფორმატი იქნება მხარდაჭერილი). გარდა ამისა, Google პასუხისმგებლიანი AI-ის პრინციპების დაცვით ნერგავს ციფრული ავატარების (Avatars) ფუნქციას. ეს მომხმარებელს საშუალებას აძლევს შექმნას საკუთარი ვირტუალური ვერსია, რომელიც მისივე ხმითა და ვიზუალით აამეტყველებს გენერირებულ ვიდეოებს. უსაფრთხოების მიზნით, Omni-ს მიერ შექმნილი ყველა ვიდეო მოიცავს შეუმჩნეველ SynthID ციფრულ წყლის ნიშანს, რომლის ვერიფიკაციაც მარტივად არის შესაძლებელი Google Search-სა თუ Chrome-ში.
ხელმისაწვდომობა და ფასი.
Gemini Omni Flash დღეიდან ხელმისაწვდომია Google AI Plus, Pro და Ultra გამომწერებისთვის მთელ მსოფლიოში, Gemini აპლიკაციისა და Google Flow-ს მეშვეობით. ხოლო მათთვის, ვინც კონტენტს YouTube Shorts-სა და YouTube Create აპლიკაციაში ქმნის, ახალი ინსტრუმენტი სრულიად უფასოდ, ეტაპობრივად ჩაირთვება მიმდინარე კვირიდან.
ეს უბრალოდ AI-ია.



