Το περιβάλλον «Μνημοσύνη» της Neurolingo στην εκκαθάριση των δεδομένων του Ταχυδρομικού Ταμιευτηρίου (ΤΤ)

Το Ταχυδρομικό Ταμιευτήριο (ΤΤ) επέλεξε το περιβάλλον «Μνημοσύνη» της Neurolingo σε έργο που αφορά την εγκατάσταση και θέση σε λειτουργία περιβάλλοντος εκκαθάρισης δεδομένων σχετικών με τους λογαριασμούς και τα προϊόντα του. Το περιβάλλον «Μνημοσύνη» αποτελεί ένα ολοκληρωμένο περιβάλλον επεξεργασίας γλωσσικών δεδομένων το οποίο ενσωματώνει όλες τις τεχνολογίες και τα λεξικά που έχει αναπτύξει η εταιρεία. Το έργο της εκκαθάρισης δεδομένων απαιτεί το ταίριασμα εγγραφών που πιθανόν να αναφέρονται στην ίδια οντότητα προκειμένου να γίνουν οι απαραίτητες ενέργειες ώστε να συμπτυχθούν, να συμπληρωθούν, να διορθωθούν ή να εξαλειφθούν. Οι αναλυτές του συστήματος Μνημοσύνη χρησιμοποιώντας μεθόδους επεξεργασίας φυσικής γλώσσας (NLP) επιτρέπουν το ταίριασμα γλωσσικών δεδομένων, ειδικότερα δε των Ονοματικών Οντοτήτων, όπως είναι τα ονόματα προσώπων (επώνυμο, όνομα, πατρώνυμο, μητρώνυμο), ημερομηνίες γέννησης, διευθύνσεις, τοπωνύμια, κτλ. Στα πλαίσια του συγκεκριμένου έργου προβλέπεται παραμετροποίηση και βελτιστοποίηση του περιβάλλοντος «Μνημοσύνη» με στόχο την ορθή χρήση και την παραγωγή στο μέγιστο βαθμό των επιθυμητών αποτελεσμάτων. Ορισμένες από τις ενέργειες που απαιτούνται για την αντιμετώπιση των γλωσσικών προβλημάτων στα πλαίσια του έργου είναι:
  • α) κανονικοποίηση των ονοματικών τύπων με βάση τη μορφολογική πληροφορία (π.χ. τύποι σε γενική όπως π.χ. στο πεδίο <πατρώνυμο>) καθώς και γραμματικούς κανόνες, και ειδικότερα ταυτοποίηση ενός ονόματος με τις διάφορες παραλλαγές του (μεταγραφή ελληνικού ονόματος με λατινικούς χαρακτήρες, μεταγραφή ξένου ονόματος με ελληνικούς χαρακτήρες, συντετμημένοι τύποι, κτλ.), συνδέσεις μεταξύ συνώνυμων εκφράσεων (π.χ. στην περίπτωση δήλωσης των αβάφτιστων παιδιών, αυτή τη στιγμή, στη βάση απαντούν περισσότερες από 60 διαφορετικές εκφράσεις).
  • β) κατάρτιση ειδικών λεξικών: ελληνικών ονομάτων (αρσενικών και θηλυκών), οδών, πόλεων, νομών, περιοχών, χωρών κτλ.