Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές

Λεύκελης, Βασίλειος-Στυλιανός

Laskaris, Nikolaos
Σχολή Μηχανικών
Papakitsos, Evangelos
Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής
Drosos, Christos

Διπλωματική εργασία

2024-08

2024-08-09T10:22:37Z


Η παρούσα εργασία επικεντρώνεται στην ανάπτυξη ενός συστήματος που επιτρέπει τη μετατροπή του ήχου σε κείμενο και αντίστροφα, με στόχο την εφαρμογή του σε ρομποτικά συστήματα. Η αμφίδρομη μετατροπή είναι απαραίτητη για τη βελτίωση της επικοινωνίας μεταξύ ανθρώπων και ρομπότ, προσφέροντας φυσικό και αποτελεσματικό μέσο αλληλεπίδρασης. Ο κύριος σκοπός της εργασίας είναι η δημιουργία ενός ολοκληρωμένου συστήματος που θα μπορεί να μετατρέπει την ομιλία σε κείμενο (Speech-to-Text, STT), μετατρέπει το κείμενο σε φυσικό ήχο ομιλίας (Text-to-Speech, TTS). Για την υλοποίηση του συστήματος χρησιμοποιήθηκαν σύγχρονες τεχνολογίες και αλγόριθμοι επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης (Machine Learning). Οι βασικές μέθοδοι περιλαμβάνουν Αναγνώριση Ομιλίας (Speech Recognition), χρήση νευρωνικών δικτύων και αλγορίθμων βαθιάς μάθησης για την ανάλυση και αναγνώριση της ομιλίας και ενσωμάτωση στην προϋπάρχουσα πλατφόρμα αναγνώρισης, όπως το Google Speech to Text API. Σύνθεση Ομιλίας (Speech Synthesis) με την χρήση τεχνικών TTS με αλγόριθμους μετατροπής κειμένου σε ήχο, όπως οι Tacotron και Wavenet. ενσωμάτωση εργαλείων όπως το Google Text to Speech API για την παραγωγή φυσικού ήχου. Το σύστημα που αναπτύχθηκε δοκιμάστηκε σε διάφορα σενάρια χρήσης σε ρομποτικές εφαρμογές, όπως εντοπισμός και απάντηση σε φωνητικές εντολές από χρήστες, παροχή φωνητικών οδηγιών και πληροφοριών από το ρομπότ προς τους χρήστες. Τα αποτελέσματα έδειξαν υψηλή ακρίβεια στην αναγνώριση ομιλίας και ποιότητα στη σύνθεση φωνής, καθιστώντας το σύστημα χρήσιμο για ποικίλες ρομποτικές εφαρμογές. Η ανάπτυξη του συστήματος αμφίδρομης μετατροπής ήχουκειμένου προσφέρει σημαντικά πλεονεκτήματα στην αλληλεπίδραση ανθρώπων και ρομπότ. Με τη συνεχή βελτίωση των αλγορίθμων και τη χρήση εξελιγμένων τεχνικών μηχανικής μάθησης, το σύστημα αυτό μπορεί να συμβάλλει σημαντικά στην εξέλιξη των ρομποτικών τεχνολογιών και στην ενίσχυση της επικοινωνίας σε ποικίλα πεδία εφαρμογών: Βελτίωση της αναγνώρισης ομιλίας σε θορυβώδη περιβάλλοντα, προσαρμογή του συστήματος για υποστήριξη σε πολλές γλώσσες και ενσωμάτωση της συναισθηματικής αναγνώρισης στην ανάλυση ομιλίας για πιο φυσική αλληλεπίδραση. Η παρούσα εργασία αποτελεί μια βάση για περαιτέρω έρευνα και ανάπτυξη στον τομέα των ρομποτικών συστημάτων και της επεξεργασίας φυσικής γλώσσας, προάγοντας τη συνεργασία ανθρώπων και μηχανών.


Μετατροπή κειμένου σε ήχο
Φωνητικές εντολές
Google Speech-to-Text API
Αλληλεπίδραση ανθρώπου-υπολογιστή
Αναγνώριση ομιλίας
Φωνητικές οδηγίες
Ρομποτικά συστήματα
Μετατροπή ήχου σε κείμενο

Ελληνική γλώσσα

Πανεπιστήμιο Δυτικής Αττικής

ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ - Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής - Διπλωματικές εργασίες

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Attribution-NoDerivatives 4.0 Διεθνές
http://creativecommons.org/licenses/by-nd/4.0/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.