Εξηγήσιμα μεγάλα πολυτροπικά μοντέλα (MLLMs) για την απάντηση ερωτήσεων σε βίντεο (VideoQA)

Θα μελετηθεί η παραγωγή εξηγήσεων (Explanations) για το πώς λαμβάνουν τις αποφάσεις τους μεγάλα πολυτροπικά μοντέλα (Multimodal Large Language Models) τα οποία χρησιμοποιούνται για την απάντηση ερωτήσεων σε βίντεο (VideoQA). Η εργασία θα εστιάσει σε μοντέλα συλλογιστικής (reasoning), και οι εξηγήσεις θα εστιάζουν στο ποια σημεία του βίντεο εισόδου βάρυναν περισσότερο στη δημιουργία της απάντησης.

Επικοινωνία

Δρ. Βασίλειος Μεζάρης
(Υπεύθυνος Επικοινωνίας)
Κτήριο Α - Γραφείο 2.11

Ινστιτούτο Τεχνολογιών Πληροφορικής και Επικοινωνιών
Εθνικό Κέντρο Έρευνας & Τεχνολογικής Ανάπτυξης
6ο χλμ Χαριλάου - Θέρμης, 57001, Θέρμη - Θεσσαλονίκη
Τηλ.: +30 2311 257770
Fax: +30 2310 474128
Email: bmezaris@iti.gr