Το έργο OAVA στοχεύει στη δημιουργία μιας πλατφόρμας ενοποιημένης μηχανής αναζήτησης σε οπτικοακουστικό υλικό ανοικτής πρόσβασης βασισμένη σε βιβλιοθηκονομικά πρότυπα τεκμηρίωσης, η οποία θα παρέχεται δωρεάν προς το κοινό. Για την ανάπτυξη της πλατφόρμας θα πραγματοποιηθεί συλλογή δεδομένων εκπαίδευσης, ο σχεδιασμός και η εκπαίδευση μοντέλων βαθιάς μάθησης για την ανάπτυξη αλγορίθμων αυτόματης αναγνώρισης ομιλίας στα ελληνικά και αγγλικά. Θα αξιοποιηθεί η υπάρχουσα τεχνολογία, η τεχνογνωσία στην ανάλυση και επεξεργασία οπτικοακουστικών ροών της DataScouting, τα επιστημονικά παράγωγα αναγνώρισης λόγου αυτού του έργου και η μακρόχρονη εμπειρία του Τμήματος Βιβλιοθηκονομίας, Αρχειονομίας και Συστημάτων Πληροφόρησης στην τεκμηρίωση υλικού και στην οργάνωση πληροφοριών και της γνώσης.
Η πλατφόρμα θα επιτρέπει την αναζήτηση οπτικοακουστικών αρχείων αξιοποιώντας τόσο τα μεταδεδομένα που διατίθενται από τους φορείς παραγωγούς/διάθεσης των οπτικοακουστικών αρχείων, όσο και το πλήρες κείμενο που προκύπτει από την αυτόματη αναγνώριση ομιλίας.
Μέρος του έργου υλοποιήθηκε με βάση το μοντέλο EBUCore, το οποίο είναι ένα καθιερωμένο πρότυπο στον τομέα των οπτικοακουστικών μεταδεδομένων. Το EBUCore δημοσιεύεται με Creative Commons “Attribution-Non-Commercial-ShareAlike3.0 Unported (CC BY-NC-SA 3.0)” και οι χρήστες του έχουν τη δυνατότητα να το αλλάξουν ανάλογα με τις ανάγκες τους.
Πακέτα εργασίας
Καινοτομία Ερευνητικού Έργου
Το παρόν ερευνητικό έργο στοχεύει στη μελέτη, σχεδίαση και ανάλυση ερευνητικής παραγωγής ανοιχτού κώδικα με σκοπό την υλοποίηση ολοκληρωμένων μοντέλων αναγνώρισης ομιλίας στα αγγλικά αλλά και στα ελληνικά. Το έργο θα επικεντρωθεί στην αξιοποίηση της βιβλιοθήκης DeepSpeech που κατασκευάστηκε από την εταιρεία Mozilla και βασίζεται στο “Baidu’s Deep Speech research paper”. Πρόκειται για λογισμικό ανοικτού κώδικα που πραγματοποιεί την διαδικασία της μάθησης κάνοντας χρήση του TensorFlow framework.
Φορείς Υλοποίησης
Διεθνές Πανεπιστήμιο της Ελλάδος
Το Τμήμα Βιβλιοθηκονομίας, Αρχειονομίας και Συστημάτων Πληροφόρησης (πρώην Τμήμα ΒΙβλιοθηκονομίας και Συστημάτων Πληροφόρησης του ΑΤΕΙ Θεσσαλονίκης) ιδρύθηκε το 1984 και έκτοτε στεγάζεται στη περιοχή της Σίνδου στη Θεσσαλονίκη. Σκοπός του Τμήματος αποτελεί η προαγωγή της Βιβλιοθηκονομίας, της Αρχειονομίας και της Επιστήμης της Πληροφόρησης, καθώς και η άρτια επιστημονική κατάρτιση στελεχών, που θα απασχοληθούν σε βιβλιοθήκες όλων των ειδών, κέντρα πληροφόρησης, καθώς και σε αρχειακούς φορείς.
DataScouting
Η DataScouting είναι εταιρεία ανάπτυξης λογισμικού και τεχνολογικών υπηρεσιών Πληροφορίας και Επικοινωνιών με εξειδίκευση στη δημιουργία καινοτόμων λύσεων για παρακολούθηση μέσων μαζικής ενημέρωσης και διαχείριση/ανάλυση πληροφορίας σε βιβλιοθήκες και αρχεία.
Νέα / Ανακοινώσεις
Ολοκλήρωση Π1.1.1
Η έκθεση απαιτήσεων χρηστών περιλαμβάνει τις τεχνικές και λειτουργικές απαιτήσεις για το σύνολο του έργου συμπεριλαμβανομένων των προδιαγραφών του υποσυστήματος αυτόματης αναγνώρισης λόγου, της ενοποιημένης μηχανής αναζήτησης openvideoarchives.gr, των διαδικασιών επισήμανσης ακουστικών ροών και της επιλογής των πηγών δεδομένων ανοικτής πρόσβασης.
Ολοκλήρωση Π1.2.1
Η έκθεση αρχιτεκτονικής περιγράφει τις τεχνικές λεπτομέρειες υλοποίησης και διασύνδεσης όλων των υποσυστημάτων έρευνας και λογισμικού του έργου.
Ολοκλήρωση Π2.1.1
Στο πλαίσιο αυτού του παραδοτέου καταγράφονται οι υποψήφιες πηγές δεδομένων ανοικτής πρόσβασης που θα χρησιμοποιηθούν ως ροές δεδομένων κατά την υλοποίηση του έργου και για τα οποία έχει πραγματοποιηθεί διαδικασία εκκαθάρισης πνευματικών δικαιωμάτων και προστασίας προσωπικών δεδομένων. Ταυτόχρονα μοντελοποιείται το βιβλιοθηκονομικό σχήμα τεκμηρίωσης (π.χ. Dublin Core με συγκεκριμένα πεδία), διερυνάται η δυνατότητα ημι-αυτόματης ευρετηρίασης με φυσική γλώσσα και παρουσιάζεται η μεθοδολογία αξιοποίησης των μεταδεδομένων των ψηφιακών αντικειμένων που θα παράγονται από το άρθρωμα αυτόματης αναγνώρισης λόγου.
Ολοκλήρωση Π2.2.1
Στο πλαίσιο των εργασιών αυτού του παραδοτέου πραγματοποιείται η χειροκίνητη επισήμανση ακουστικών ροών και συγκεκριμένα η απομαγνητοφώνηση τους.
Ολοκλήρωση Π2.3.1
Στο παραδοτέο αυτό συμπεριλαμβάνεται η κύρια ερευνητική εργασία για την επιλογή της κατάλληλης αρχιτεκτονικής νευρωνικών δικτύων βαθιάς μάθησης, η επιλογή παραμέτρων εκπαίδευσης, η επαύξηση και η χρήση των δεδομένων εκπαίδευσης με στόχο την παραγωγή ενός λειτουργικού μοντέλου αναγνώρισης ομιλίας στα αγγλικά.
Ολοκλήρωση Π3.1.1
Πρώιμη έκδοση λογισμικού ενοποιημένης μηχανής αναζήτησης, μεταφόρτωσης, επεξεργασίας και τεκμηρίωσης οπτικοακουστικών ροών.
Ολοκλήρωση Π2.3.2
Στο παραδοτέο αυτό συμπεριλαμβάνεται η κύρια ερευνητική εργασία που σε συνέχεια της δημιουργίας του μοντέλου αυτόματης αναγνώρισης ομιλίας στα αγγλικά θα το επεκτείνει και θα το εκπαιδεύσει με στόχο την παραγωγή ενός λειτουργικού μοντέλου αναγνώρισης ομιλίας στα ελληνικά. Για το συγκεκριμένο μοντέλο, γίνεται χρήση των δεδομένων εκπαίδευσης που δημιουργήθηκαν στο πλαίσιο του έργου.
Ολοκλήρωση Π3.2.1
Το παραδοτέο περιγράφει την ενσωμάτωση των ερευνητικών αλγορίθμων και μοντέλων αναγνώρισης λόγου, τη δημιουργία μικρο-υπηρεσιών (microservices) που πλαισιώνουν τα αρθρώματα καθώς και τη δημιουργία των κατάλληλων προγραμματιστικών διεπαφών για την υποστήριξη της διαλειτουργικότητας μεταξύ των υπηρεσιών αλλά και της χρήσης από πολλαπλούς εξωτερικούς χρήστες.
Δημοσίευση άρθρου
Malliari, A., Nitsos, I., Zapounidou, S. Doropoulos, S. (2022). Mapping audiovisual content providers and resources in Greece. International Journal on Digital Libraries. https://doi.org/10.1007/s00799-022-00321-6
Ολοκλήρωση Π4.1.1
Η έκθεση περιλαμβάνει την σχεδιάση της πιλοτικής δοκιμής
Δημοσίευση άρθρου
Towards the development of an audio-visual aggregator: the Open Audio-Visual Archives (OAVA) project in Greece στο Newsletter της IFLA “Trends and Issues in Library Technology, Special Issue on Artificial Intelligence https://repository.ifla.org/handle/123456789/1940
Δημοσίευση άρθρου
Malliari, A., Nitsos, I., Zapounidou, S. Doropoulos, S. (2022) Copyright implications for the aggregation of audiovisual content in Greece. Digital Library Perspectives, In Press https://www.emerald.com/insight/content/doi/10.1108/DLP-04-2022-0033/full/html
Ολοκλήρωση Π3.1.2
Τελική έκδοση λογισμικού ενοποιημένης μηχανής αναζήτησης, μεταφόρτωσης, επεξεργασίας και τεκμηρίωσης οπτικοακουστικών ροών
Ολοκλήρωση Π4.2.1
Η έκθεση περιλαμβάνει την τα αποτελέσματα της πιλοτικής δοκιμής.
Ολοκλήρωση Π2.4.1
Η έκθεση περιλαμβάνει την αναλυτική αναφορά διάχυσης των ερευνητικών αποτελεσμάτων σε διεθνή συνέδρια και περιοδικά.
Ολοκλήρωση Π4.3.1
Η έκθεση περιλαμβάνει τα επόμενα βήματα που θα ακολουθηθούν για την εμπορική εκμετάλλευση του συστήματος.
Υποβολή άρθρου
OAVA: the Open Audio-Visual Archives aggregator στο διεθνές περιοδικό “International Journal on Digital Libraries” του εκδότη Springer
Παρουσίαση
OAVA, πλατφόρμα διάχυσης οπτικοακουστικού υλικού ανοικτής πρόσβασης. Open Access Week