Η νεοφυής εταιρεία OpenAI, δημιουργός του ChatGPT και του δημιουργού εικόνων DALL-E, παρουσίασε ένα νέο εργαλείο με την ονομασία «Sora», το οποίο είναι ικανό να δημιουργεί, με την απλή εισαγωγή ενός κειμένου, ρεαλιστικά βίντεο που μπορούν να διαρκέσουν μέχρι ένα λεπτό.
Πρόκειται για μείζονα καινοτομία στον τομέα της τεχνητής νοημοσύνης.
Βασισμένη στις προηγούμενες έρευνες για τα προγράμματα DALL-E και GPT, αυτή η νέα πλατφόρμα είναι ακόμη υπό δοκιμή, διευκρίνισε η καλιφορνέζικη νεοφυής σύμμαχος της Microsoft, η οποία παρουσίασε πάντως μερικά βίντεο και τον τρόπο που δημιουργήθηκαν.
Το πρόγραμμα Sora μπορεί να δημιουργήσει βίντεο μέγιστης διάρκειας ενός λεπτού «διατηρώντας οπτική ποιότητα και σεβόμενο το αίτημα του χρήστη», ανέφερε στον ιστότοπό της η OpenAI, και «να δημιουργεί πολύπλοκες σκηνές με πολλά πρόσωπα, συγκεκριμένους τύπους κινήσεων και ακριβείς λεπτομέρειες». Το Sora επιτρέπει επίσης να δημιουργηθεί βίντεο από μια σταθερή εικόνα, διαβεβαιώνει ο γίγαντας της τεχνητής νοημοσύνης, ή και να επιμηκυνθούν υφιστάμενα βίντεο.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Ο Σαμ Άλτμαν, ο επικεφαλής της OpenAI, δήλωσε στο μέσο κοινωνικής δικτύωσης «X» (πρώην Twitter) πως στο πλαίσιο της πειραματικής φάσης, η εταιρεία θα προσφέρει σε περιορισμένο αριθμό δημιουργών την πρόσβαση σ’ αυτό το νέο εργαλείο.
Ο Άλτμαν κάλεσε επίσης τους χρήστες να κάνουν προτάσεις για τη δημιουργία βίντεο, και μερικά λεπτά αργότερα ανέβασε στην πλατφόρμα τα πιο επιτυχημένα απ’ αυτά.
Ανάμεσα σ’ αυτά βλέπει κανείς δύο σκύλους να παίζουν στο χιόνι, σε βουνό. Ένα άλλο βίντεο δείχνει την πτήση ενός φανταστικού ζώου, μισό πάπια μισό δράκος, μπροστά σε ένα υπέροχο ηλιοβασίλεμα, έχοντας στην πλάτη του ένα χάμστερ με εκδρομική περιβολή.
Το Sora χρησιμεύει ως βάση για «προγράμματα ικανά να καταλάβουν και να προσομοιώσουν τον πραγματικό κόσμο», εξηγεί η OpenAI, η οποία ελπίζει ότι «θα αποτελέσει σημαντικό σταθμό στην πραγματοποίηση της AGI», της Γενικής Τεχνητής Νοημοσύνης, ενός πολύ αυτόνομου συστήματος που φέρεται ότι θα ξεπεράσει τους ανθρώπους στις περισσότερες από τις οικονομικά αποδοτικές δουλειές.
Η OpenAI προειδοποίησε ότι το σημερινό μοντέλο της πλατφόρμας παρουσιάζει «ελαττώματα», καθώς συγχέει το αριστερά με το δεξιά και εμφανίζει αδυναμία να διατηρήσει μια οπτική συνέχεια σε ολόκληρο το βίντεο. «Για παράδειγμα, ένα πρόσωπο μπορεί να δαγκώσει ένα μπισκότο, όμως μετά το μπισκότο μπορεί να μην έχει ίχνη από το δάγκωμα», εξηγεί η εταιρεία.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Παρουσιάζοντας αυτό το νέο εργαλείο, η εταιρεία ανέφερε πως το ζήτημα της ασφάλειας αποτελεί ουσιώδες διακύβευμα και ότι προσομοιώσεις θα οργανωθούν με χρήστες από τους οποίους θα ζητηθεί να παραγάγουν δυσλειτουργίες ή να δημιουργήσουν ανάρμοστα περιεχόμενα, ώστε να καθορισθούν καλύτερα τα όρια της πλατφόρμας.
«Θα καλέσουμε πρόσωπα που λαμβάνουν πολιτικές αποφάσεις, εκπαιδευτικούς και καλλιτέχνες απ’ όλο τον κόσμο για να κατανοήσουμε τις ανησυχίες τους και να εντοπίσουμε τις θετικές περιπτώσεις χρήσης αυτής της νέας τεχνολογίας», ανέφερε η OpenAI.
Δείγματα έχουν παρουσιάσει ήδη και οι εταιρείες Meta, Google και Runway AI, οι οποίες εργάζονται σε παρόμοιες εφαρμογές μετατροπής κειμένου σε βίντεο, τις λεγόμενες «text-to-video».