Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές

This item is provided by the institution :
University of West Attica   

Repository :
Institutional Repository Polynoe   

see the original item page
in the repository's web site and access all digital files if the item*



Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές

Λεύκελης, Βασίλειος-Στυλιανός

Laskaris, Nikolaos
Σχολή Μηχανικών
Papakitsos, Evangelos
Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής
Drosos, Christos

Διπλωματική εργασία

2024-08

2024-08-09T10:22:37Z


Η παρούσα εργασία επικεντρώνεται στην ανάπτυξη ενός συστήματος που επιτρέπει τη μετατροπή του ήχου σε κείμενο και αντίστροφα, με στόχο την εφαρμογή του σε ρομποτικά συστήματα. Η αμφίδρομη μετατροπή είναι απαραίτητη για τη βελτίωση της επικοινωνίας μεταξύ ανθρώπων και ρομπότ, προσφέροντας φυσικό και αποτελεσματικό μέσο αλληλεπίδρασης. Ο κύριος σκοπός της εργασίας είναι η δημιουργία ενός ολοκληρωμένου συστήματος που θα μπορεί να μετατρέπει την ομιλία σε κείμενο (Speech-to-Text, STT), μετατρέπει το κείμενο σε φυσικό ήχο ομιλίας (Text-to-Speech, TTS). Για την υλοποίηση του συστήματος χρησιμοποιήθηκαν σύγχρονες τεχνολογίες και αλγόριθμοι επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης (Machine Learning). Οι βασικές μέθοδοι περιλαμβάνουν Αναγνώριση Ομιλίας (Speech Recognition), χρήση νευρωνικών δικτύων και αλγορίθμων βαθιάς μάθησης για την ανάλυση και αναγνώριση της ομιλίας και ενσωμάτωση στην προϋπάρχουσα πλατφόρμα αναγνώρισης, όπως το Google Speech to Text API. Σύνθεση Ομιλίας (Speech Synthesis) με την χρήση τεχνικών TTS με αλγόριθμους μετατροπής κειμένου σε ήχο, όπως οι Tacotron και Wavenet. ενσωμάτωση εργαλείων όπως το Google Text to Speech API για την παραγωγή φυσικού ήχου. Το σύστημα που αναπτύχθηκε δοκιμάστηκε σε διάφορα σενάρια χρήσης σε ρομποτικές εφαρμογές, όπως εντοπισμός και απάντηση σε φωνητικές εντολές από χρήστες, παροχή φωνητικών οδηγιών και πληροφοριών από το ρομπότ προς τους χρήστες. Τα αποτελέσματα έδειξαν υψηλή ακρίβεια στην αναγνώριση ομιλίας και ποιότητα στη σύνθεση φωνής, καθιστώντας το σύστημα χρήσιμο για ποικίλες ρομποτικές εφαρμογές. Η ανάπτυξη του συστήματος αμφίδρομης μετατροπής ήχουκειμένου προσφέρει σημαντικά πλεονεκτήματα στην αλληλεπίδραση ανθρώπων και ρομπότ. Με τη συνεχή βελτίωση των αλγορίθμων και τη χρήση εξελιγμένων τεχνικών μηχανικής μάθησης, το σύστημα αυτό μπορεί να συμβάλλει σημαντικά στην εξέλιξη των ρομποτικών τεχνολογιών και στην ενίσχυση της επικοινωνίας σε ποικίλα πεδία εφαρμογών: Βελτίωση της αναγνώρισης ομιλίας σε θορυβώδη περιβάλλοντα, προσαρμογή του συστήματος για υποστήριξη σε πολλές γλώσσες και ενσωμάτωση της συναισθηματικής αναγνώρισης στην ανάλυση ομιλίας για πιο φυσική αλληλεπίδραση. Η παρούσα εργασία αποτελεί μια βάση για περαιτέρω έρευνα και ανάπτυξη στον τομέα των ρομποτικών συστημάτων και της επεξεργασίας φυσικής γλώσσας, προάγοντας τη συνεργασία ανθρώπων και μηχανών.


Μετατροπή κειμένου σε ήχο
Φωνητικές εντολές
Google Speech-to-Text API
Αλληλεπίδραση ανθρώπου-υπολογιστή
Αναγνώριση ομιλίας
Φωνητικές οδηγίες
Ρομποτικά συστήματα
Μετατροπή ήχου σε κείμενο

Greek

Πανεπιστήμιο Δυτικής Αττικής

ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ - Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής - Διπλωματικές εργασίες

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Attribution-NoDerivatives 4.0 Διεθνές
http://creativecommons.org/licenses/by-nd/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)