Το έργο OAVA στοχεύει στη δημιουργία μιας πλατφόρμας ενοποιημένης μηχανής αναζήτησης σε οπτικοακουστικό υλικό ανοικτής πρόσβασης βασισμένη σε βιβλιοθηκονομικά πρότυπα τεκμηρίωσης, η οποία θα παρέχεται δωρεάν προς το κοινό. Για την ανάπτυξη της πλατφόρμας θα πραγματοποιηθεί συλλογή δεδομένων εκπαίδευσης, ο σχεδιασμός και η εκπαίδευση μοντέλων βαθιάς μάθησης για την ανάπτυξη αλγορίθμων αυτόματης αναγνώρισης ομιλίας στα ελληνικά και αγγλικά. Θα αξιοποιηθεί η υπάρχουσα τεχνολογία, η τεχνογνωσία στην ανάλυση και επεξεργασία οπτικοακουστικών ροών της DataScouting, τα επιστημονικά παράγωγα αναγνώρισης λόγου αυτού του έργου και η μακρόχρονη εμπειρία του Τμήματος Βιβλιοθηκονομίας, Αρχειονομίας και Συστημάτων Πληροφόρησης στην τεκμηρίωση υλικού και στην οργάνωση πληροφοριών και της γνώσης.

Η πλατφόρμα θα επιτρέπει την αναζήτηση οπτικοακουστικών αρχείων αξιοποιώντας τόσο τα μεταδεδομένα που διατίθενται από τους φορείς παραγωγούς/διάθεσης των οπτικοακουστικών αρχείων, όσο και το πλήρες κείμενο που προκύπτει από την αυτόματη αναγνώριση ομιλίας.

Πακέτα εργασίας

Δημιουργία Δεδομένων Εκπαίδευσης

Δημιουργία ενός συνόλου δεδομένων εκπαίδευσης (μεταγραφής σε κείμενο ακουστικών ροών στα ελληνικά με χρονική επισήμανση) και ανάπτυξη εμπορικού αρθρώματος αυτόματης αναγνώρισης λόγου στα αγγλικά και στα ελληνικά με αξιοποίηση της τρέχουσας και υπάρχουσας τεχνολογικής στάθμης και με ακρίβεια αντίστοιχης των εμπορικών ανταγωνιστικών προϊόντων. Καταγραφή μεθοδολογιών εκπαίδευσης και επέκτασης των μοντέλων αναγνώρισης λόγου και σε άλλες γλώσσες.

Καταγραφή οπτικοακουστικού υλικού

Καταγραφή των πηγών ελληνόγλωσσου οπτικοακουστικού υλικού ανοικτής πρόσβασης, προσαρμογή του κατάλληλου σχήματος μεταδεδομένων σύμφωνα με τα διεθνή πρότυπα της βιβλιοθηκονομίας και επιστήμης της πληροφόρησης, προτυποποίηση του μοντέλου τεκμηρίωσης και διαδικασία ημι-αυτόματης ευρετηρίασης με φυσική γλώσσα από το διαθέσιμο διαδικτυακά οπτικοακουστικό υλικό αξιοποιώντας τη μακρόχρονη εμπειρία των αρχειονόμων-βιβλιοθηκονόμων μελών της ερευνητικής ομάδας.

Πλατφόρμα οπτικοακουστικού υλικού

Λογισμικό περιηγητή αποθετηρίων με στόχο την προσωρινή μεταφόρτωση των ψηφιακών αντικειμένων, την επεξεργασία τους απο το άρθρωμα αναγνώρισης λόγου και την εξαγωγή του κειμένου, την αποθήκευση του κειμένου και των μεταδεδομένων τους, τον εμπλουτισμό του διαδικτύου με με ελληνικό περιεχόμενο σε αναζητήσιμη μορφή, καθώς και τη διάθεση στο κοινό μέσω μιας ενοποιημένης μηχανής αναζήτησης ανοικτού κώδικα.

Καινοτομία Ερευνητικού Έργου

Το παρόν ερευνητικό έργο στοχεύει στη μελέτη, σχεδίαση και ανάλυση ερευνητικής παραγωγής ανοιχτού κώδικα  με σκοπό την υλοποίηση ολοκληρωμένων μοντέλων αναγνώρισης ομιλίας στα αγγλικά αλλά και στα ελληνικά. Το έργο θα επικεντρωθεί στην αξιοποίηση της βιβλιοθήκης DeepSpeech που κατασκευάστηκε από την εταιρεία Mozilla και βασίζεται στο “Baidu’s Deep Speech research paper”. Πρόκειται για λογισμικό ανοικτού κώδικα που πραγματοποιεί την διαδικασία της μάθησης κάνοντας χρήση του TensorFlow framework.

Φορείς Υλοποίησης

Διεθνές Πανεπιστήμιο της Ελλάδος

Το Τμήμα Βιβλιοθηκονομίας, Αρχειονομίας και Συστημάτων Πληροφόρησης (πρώην Τμήμα ΒΙβλιοθηκονομίας και Συστημάτων Πληροφόρησης του ΑΤΕΙ Θεσσαλονίκης) ιδρύθηκε το 1984 και έκτοτε στεγάζεται στη περιοχή της Σίνδου στη Θεσσαλονίκη. Σκοπός του Τμήματος αποτελεί η προαγωγή της Βιβλιοθηκονομίας, της Αρχειονομίας και της Επιστήμης της Πληροφόρησης, καθώς και η άρτια επιστημονική κατάρτιση στελεχών, που θα απασχοληθούν σε βιβλιοθήκες όλων των ειδών, κέντρα πληροφόρησης, καθώς και σε αρχειακούς φορείς.

DataScouting

Η DataScouting είναι εταιρεία ανάπτυξης λογισμικού και τεχνολογικών υπηρεσιών Πληροφορίας και Επικοινωνιών με εξειδίκευση στη δημιουργία καινοτόμων λύσεων για παρακολούθηση μέσων μαζικής ενημέρωσης και διαχείριση/ανάλυση πληροφορίας σε βιβλιοθήκες και αρχεία.