Λημματοποιητής


Περιγραφή

Λημματοποιητής (Lemmatizer) είναι το γλωσσικό εργαλείο που δέχεται ως είσοδο έναν οποιοδήποτε λεκτικό τύπο και επιστρέφει το λημματικό τύπο στον οποίο αντιστοιχεί, π.χ. για τον τύπο κατέστη επιστρέφει το λημματικό τύπο καθιστώ. Στην περίπτωση που ο δοθείς τύπος αντιστοιχεί σε περισσότερους του ενός λημματικούς τύπους, ο Λημματοποιητής τους επιστρέφει όλους, π.χ. για τον τύπο απαντήσεις επιστρέφει απαντώ και απάντηση. Η λειτουργία του Λημματοποιητή της Neurolingo βασίζεται σε ευρετήριο που περιέχει όλους τους λεκτικούς τύπους όλων των λημμάτων του Μορφολογικού Λεξικού.

Για μια γλώσσα με έντονη μορφολογία όπως η Νέα Ελληνική, ο Λημματοποιητής αποτελεί αναπόσπαστη λειτουργική συνιστώσα σε εφαρμογές ευρετηριασμού και αναζήτησης κειμενικής πληροφορίας. Για παράδειγμα, όταν ο χρήστης αναζητά κείμενα που περιέχουν τον όρο υπολογιστές, προφανώς θα ήθελε μέσα στα αποτελέσματα αναζήτησης να περιλαμβάνονται και κείμενα που περιέχουν τους τύπους υπολογιστής, υπολογιστή και υπολογιστών. Αυτό πρακτικά επιτυγχάνεται μέσω λημματοποίησης τόσο των όρων ευρετηριασμού των κειμένων όσο και των όρων που απαρτίζουν τα ερωτήματα αναζήτησης: κείμενα που περιέχουν τους τύπους υπολογιστή, υπολογιστές και υπολογιστών θα ευρετηριαστούν και βάσει του λημματικού τύπου υπολογιστής· ένα ερώτημα που περιέχει τον τύπο υπολογιστές θα διευρυνθεί ώστε να περιέχει και το λημματικό τύπο υπολογιστής. Έτσι, ένα κείμενο που περιέχει τον τύπο υπολογιστών μπορεί πλέον να συσχετιστεί με ένα ερώτημα που περιέχει τον τύπο υπολογιστές μέσω του κοινού λημματικού τύπου υπολογιστής.

arrow Δοκιμάστε online το Λημματοποιητή.

Εφαρμογές

Ο Λημματοποιητής της Neurolingo έχει ενσωματωθεί στα παρακάτω συστήματα ευρετηριασμού και αναζήτησης κειμένων:

  • Apache Lucene. Η λειτουργικότητα του Λημματοποιητή παρέχεται μέσω απογόνου της Java κλάσης org.apache.lucene.analysis.Analyzer.
  • Oracle Text. Η λειτουργικότητα του Λημματοποιητή παρέχεται μέσω stored procedures (USER_LEXER preference).
  • Microsoft Indexing Service / SQL Server Full-Text Search. Η λειτουργικότητα του Λημματοποιητή παρέχεται μέσω υλοποίησης του IStemmer COM interface.