eXeLMM

Εξηγήσιμα και υπολογιστικά αποδοτικά μεγάλα πολυτροπικά μοντέλα για αναγνώριση βίντεο

Γενική θεώρηση

Παρά την αξιοσημείωτη πρόοδο που έχει επιτευχθεί, ιδιαίτερα με τις μεθοδολογίες βαθιάς μάθησης κατά την τελευταία δεκαετία, η σε βάθος κατανόηση βίντεο παραμένει μια πρόκληση. Το έργο eXeLMM θα αντιμετωπίσει αυτή την πρόκληση αξιοποιώντας την αναδυόμενη τεχνολογία των Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ) / Μεγάλων Πολυτροπικών Μοντέλων (ΜΠΜ). Ισχυρά και ανοιχτά τέτοια μοντέλα θα επιλεγούν από την πλέον πρόσφατη βιβλιογραφία, θα προσαρμοστούν και θα χρησιμοποιηθούν για τη σε βάθος κατανόηση βίντεο. Στα πλαίσια αυτής της προσπάθειας, το eXeLMM θα συμβάλει στην αντιμετώπιση κρίσιμων ζητημάτων που προκύπτουν όταν επιχειρεί κανείς να αξιοποιήσει ΜΓΜ / ΜΠΜ σε προβλήματα κατανόησης βίντεο, όπως η υπολογιστική αποδοτικότητα και η εξηγησιμότητα.

Ερευνητικοί στόχοι

Η πρόοδος της σε βάθος κατανόησης βίντεο, προσαρμόζοντας και θα χρησιμοποιώντας για το σκοπό αυτό Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ) / Μεγάλα Πολυτροπικά Μοντέλα (ΜΠΜ).
Η μείωση του υπολογιστικού κόστους της κατανόησης βίντεο με χρήση ΜΓΜ / ΜΠΜ, για παράδειγμα με την εισαγωγή τεχνικών απόσταξης γνώσης (knowledge distillation).
Η βελτίωση της αξιοπιστίας των μεθοδολογιών κατανόησης βίντεο, χρησιμοποιώντας τεχνικές εξηγήσιμης τεχνητής νοημοσύνης.
Η αξιοποίηση πολύ-τροπικής πληροφορίας για τη βελτίωση της κατανόησης βίντεο.

Ομάδα Έργου

Δρ. Βασίλειος Μεζάρης, Διευθυντής Ερευνών (Επιστημονικός Υπεύθυνος eXeLMM)
Επικεφαλής Εργαστηρίου Ευφυούς Ψηφιακού Μετασχηματισμού ΙΠΤΗΛ-ΕΚΕΤΑ
PhD Electrical and Computer Engineering, BSc Electrical and Computer Engineering

Δρ. Ευλάμπιος Αποστολίδης, Μεταδιδακτορικός Ερευνητής
PhD Electronic Engineering, MSc Information Systems, BSc Electrical and Computer Engineering

Ανδρέας Γούλας, Υποψήφιος Διδάκτορας
BSc Electrical and Computer Engineering

Αποτελέσματα

Εδώ θα αναρτώνται οι δημοσιεύσεις του έργου, τα δημόσια παραδοτέα (μετά την έγκριση τους) και άλλο σχετικό υλικό.

Χρηματοδότηση

To eXeLMM: “Explainable and efficient large multimodal models for downstream video recognition tasks – Εξηγήσιμα και υπολογιστικά αποδοτικά μεγάλα πολυτροπικά μοντέλα για αναγνώριση βίντεο” είναι ένα Ερευνητικό Έργο διάρκειας 36 μηνών (Οκτ. 2025 - Σεπτ. 2028), που χρηματοδοτείται από το Ελληνικό Ίδρυμα Έρευνας και Καινοτομίας (ΕΛ.ΙΔ.Ε.Κ.). Το Έργο υλοποιείται στο πλαίσιο της δράσης του ΕΛ.ΙΔ.Ε.Κ. «3η Προκήρυξη Ερευνητικών Έργων ΕΛ.ΙΔ.Ε.Κ. για μέλη ΔΕΠ και Ερευνητές/τριες» (Αριθμός Έργου ΕΛ.ΙΔ.Ε.Κ.: 25957).

Contacts

Contact us on: bmezaris@iti.gr

Follow eXeLMM

LinkedIn: Visit our LinkedIn page