Η παρούσα διπλωματική εργασία εξετάζει την υλοποίηση διαδικτυακής μηχανής
αναζήτησης η οποία δέχεται ερωτήματα που δίνονται σε ‘φυσική γλώσσα’ τα οποία επεξεργάζεται
βασιζόμενη σε τεχνικές NLP (Natural Language Processing) και στην συνέχεια προσπαθεί να
απαντήσει στο ερώτημα του χρήστη.
Αναπτύχθηκε ένας μηχανισμός όπου παίρνει ως είσοδο, κείμενα φυσικής γλώσσας και
χρησιμοποιώντας το Google NLP API αναλύει συντακτικά, σημασιολογικά, μορφολογικά,
συναισθηματικά και γραμματικά, συναισθηματικά τα κείμενα. Στην συνέχεια εξάγει μεταδεδομένα
για τα κείμενα αυτά Part of Speech POS, sentiment magnitude, αναγνωρίζει και εξάγει τις οντότητες
που εμπεριέχονται σε αυτά. Κατόπιν κάνει χρήση της ανάλυσης και των μεταδεδομένων αυτών
αντιστοιχίζει το ερώτημα σε κάποιο προκαθορισμένο πρότυπο και αποστέλλει ερώτημα στη μηχανή
αναζήτησης. Η μηχανή αναζήτησης που είναι υλοποιημένη σε Elasticsearch αναζητά στον index της,
ο οποίος βασίζεται σε δεδομένα που αφορούν ταινίες και ηθοποιούς με βάση του dataset της IMDB,
και παρουσιάζει τα αποτελέσματα μέσω διαδικτυακής διεπαφής. Σε αυτή την φάση γίνεται χρήση
τεχνικών αναζήτησης σε προκαθορισμένες οντότητες, faceted search, fielded search, spelling
correction
(EL)
Μεταπτυχιακή εργασία--ΣΤΕΦ-Τμήμα Μηχανικών Πληροφορικής, 2018—10034
(EL)
This diploma thesis examines the implementation of the web-based search engine that
receives text questions in "natural language", process them based on NLP techniques (Natural
Language Processing) and then attempts to answer the question of the user.
A mechanism was developed where it takes as input, in natural language texts and uses
the Google NLP API to analyze the text syntactically, semantically, morphologically,
emotionally and grammatically, sentimentally. It then extracts metadata for parts of Speech
POS, sentiment magnitude, recognizes and extracts the entities contained in them. Then it
uses the analysis and metadata generated to match the query to a predefined template and
sends a query request to the search engine. The search engine that is implemented in
Elasticsearch, searches its index, consisting data on movies and actors based on the IMDB
dataset, and presents the results through a web interface. In this phase, the following search
techniques are applied to predefined taxonomies, faceted search, fielded search, spelling
correction
(EN)