Έγκλημα & Επιστήμες

Υπολογιστική Υφολογία: Απόδοση της συγγραφικής πατρότητας σε ανώνυμα κείμενα

Γεώργιος Κ. Μικρός
Καθηγητής Υπολογιστικής και Ποσοτικής Γλωσσολογίας, ΕΚΠΑ

Νοέμβριος 2016

Υπολογιστική Υφολογία: Απόδοση της συγγραφικής πατρότητας σε ανώνυμα κείμενα

Η υπολογιστική υφολογία είναι ένας διεπιστημονικός κλάδος που διερευνά τον τρόπο γραφής των κειμένων και το πώς αυτός συνδέεται με την ταυτότητα του συγγραφέα τους ή και άλλα χαρακτηριστικά του όπως το φύλο, η ηλικία, τα ψυχολογικά χαρακτηριστικά. Ο συγκεκριμένος κλάδος απαιτεί την εντατική συνεργασία επιστημών όπως η Γλωσσολογία, η Επεξεργασία Φυσικής Γλώσσας, η Λογοτεχνική Ανάλυση, η Στατιστική, η Ανάκτηση Πληροφορίας, η Τεχνητή Νοημοσύνη και, ειδικότερα, ο κλάδος της Μηχανικής Μάθησης. Όπως γίνεται κατανοητό, ένας ερευνητικός χώρος αυτής της έκτασης είναι εξαιρετικά δύσκολο να προσεγγιστεί χωρίς την έκθεση στα περισσότερα (αν όχι σε όλα) από τα προαναφερθέντα επιστημονικά αντικείμενα. Για το λόγο αυτό η υφομετρική απόδοση της συγγραφικής πατρότητας παρουσίαζε σε όλο το διάστημα εξέλιξής της έναν εξαιρετικά διασπασμένο χαρακτήρα, με σημαντικές συμβολές στην πρόοδο του κλάδου να μένουν στην αφάνεια, εξαιτίας του διαφορετικού υπόβαθρου των ερευνητών.

Φιλόλογοι, γλωσσολόγοι, μαθηματικοί, στατιστικολόγοι, πληροφορικοί, εγκληματολόγοι, ιστορικοί, θεολόγοι, ακόμα και οικονομολόγοι έχουν κατά καιρούς δημοσιεύσει βιβλία ή άρθρα στα οποία προσπαθούν να βρουν το συγγραφέα ενός ανώνυμου κειμένου μέσω ποσοτικών πληροφοριών από το ίδιο το ανώνυμο κείμενο. Φυσικά, στις περισσότερες περιπτώσεις οι μαθηματικοί δεν μπορούσαν εύκολα να πληροφορηθούν τις εργασίες των φιλολόγων και αντίστροφα, με αποτέλεσμα να αναπτύσσονται αξιόλογες μαθηματικές μέθοδοι που δεν εφαρμόστηκαν ποτέ σε πραγματικά ενδιαφέροντα φιλολογικά ή ιστορικά προβλήματα. Αντίστοιχα, καίριας σημασίας θέματα με φιλολογικό, ιστορικό, θεολογικό ή και εγκληματολογικό ενδιαφέρον αναλύθηκαν κατά καιρούς με απλοϊκό ή και αρκετές φορές με λανθασμένο μαθηματικά τρόπο και τα συμπεράσματα τα οποία προέκυψαν ήταν παραπλανητικά και άκυρα.

Η αρνητική αυτή εικόνα, η οποία ενισχύθηκε από ορισμένες υποθέσεις λανθασμένης απόδοσης συγγραφέα που γνώρισαν σημαντική δημοσιότητα στη δεκαετία του ’80 και του ’90, βελτιώθηκε σταδιακά με την έλευση του Διαδικτύου και την εμφάνιση του κλάδου της Ανάκτησης της Πληροφορίας (Information Retrieval). Ο Παγκόσμιος Ιστός δημιούργησε έναν τεράστιο όγκο κειμενικής πληροφορίας, ο οποίος είναι ανά πάσα στιγμή διαθέσιμος στον οποιονδήποτε. Σ’ ένα τέτοιο περιβάλλον πλουραλισμού πληροφορίας, η πραγματική πρόκληση είναι ο εντοπισμός της σχετικής πληροφορίας. Ο κλάδος της Ανάκτησης Πληροφορίας έκανε τεράστια βήματα τα τελευταία χρόνια σε αυτήν την κατεύθυνση, με τη μηχανή αναζήτησης Google να δέχεται κάθε μέρα 2 δισεκατομμύρια ερωτήματα.

Ο αυτόματος εντοπισμός συγγραφέα, μέσα από την οπτική της Ανάκτησης της Πληροφορίας, μετατρέπεται σε ένα αλγοριθμικό πρόβλημα, το οποίο επικεντρώνεται όχι στη θεματική αλλά στη μετακειμενική ανάκτηση πληροφορίας. Παράλληλα, τόσο η Επεξεργασία Φυσικής Γλώσσας, όσο και η Μηχανική Μάθηση έχουν κάνει σημαντικά βήματα προόδου και οι ερευνητές πλέον διαθέτουν ακριβή εργαλεία για να επισημειώσουν τα κείμενα και στη συνέχεια να αναλύσουν αποτελεσματικά τα κειμενικά διανύσματα που παράγονται. Στο πλαίσιο αυτής της ερευνητικής προσέγγισης, ο αυτόματος εντοπισμός συγγραφέα έχει κάνει την τελευταία δεκαετία σημαντική πρόοδο, τόσο ως προς την αξιοπιστία των μεθόδων όσο και ως προς την αποτελεσματικότητα και την ευαισθησία των τεχνικών που έχουν αναπτυχθεί.

Η βελτίωση της αξιοπιστίας αυτής της μεθόδου έχει βοηθήσει στην ανάπτυξη της Δικαστικής Γλωσσολογίας (Forensic Linguistics) ως επιστημονικού κλάδου που ανάμεσα σε διάφορες επιμέρους ερευνητικές του δραστηριότητες συμπεριλαμβάνει και την αναγνώριση συγγραφέα ανώνυμων κειμένων (author identification).

Ίσως η πιο γνωστή περίπτωση όπου οι αρχές αξιοποίησαν τη συγκεκριμένη μέθοδο ήταν η περίπτωση του Ted Kaczynski γνωστού και ως Unabomber, ενός κατά συρροή βομβιστή στις ΗΠΑ ο οποίος για 17 χρόνια (1978 – 1995) ταχυδρομούσε αυτοσχέδιες βόμβες σε πανεπιστήμια και αεροπορικές γραμμές. Ο Kaczynski απαίτησε να δημοσιευτεί ένα πολυσέλιδο μανιφέστο ενάντια στον τεχνολογικό πολιτισμό το οποίο αποτέλεσε το βασικό στοιχείο στο οποίο στηρίχθηκε το ένταλμα σύλληψής του καθώς ο τρόπος γραφής του και συγκεκριμένες γλωσσικές και συντακτικές επιλογές αναγνωρίστηκαν από τον αδελφό του David Kaczynski ως κείμενο που μοιάζει εξαιρετικά με αυτά που έγραφε ο αδελφός του Ted. Η ανάλυση που έγινε από δικαστικούς γλωσσολόγους επιβεβαίωσε τις αρχικές υποψίες του αδελφού του David και ο Ted συνελήφθη και ομολόγησε τους βομβισμούς.

Η χρήση τέτοιων μεθόδων στην διερεύνηση δικαστικών περιπτώσεων που εμπλέκονται κείμενα εγκληματολογικού ενδιαφέροντος φαίνεται να είναι αυξανόμενη δεδομένης της ενσωμάτωσης τεχνολογιών τεχνητής νοημοσύνης που έχουν αυξήσει σημαντικά την αξιοπιστία και την εγκυρότητα της μεθόδου. Επίσης, ένα μεγάλος εύρος εγκληματικών ενεργειών διεξάγεται πλέον στο διαδίκτυο με τα μέσα κοινωνικής δικτύωσης να αποτελούν πλέον ένα εστιακό σημείο παραγωγής κειμένων εγκληματολογικού ενδιαφέροντος.

Σήμερα, ο αυτόματος εντοπισμός συγγραφέα ασχολείται, κυρίως, με τέσσερα διαφορετικά προβλήματα συγγραφικής απόδοσης:

Κλειστά προβλήματα: Σε αυτά προσπαθούμε να εντοπίσουμε την πατρότητα ενός ή περισσότερων ανώνυμων κειμένων μέσα από μια συγκεκριμένη (κλειστή) λίστα υποψήφιων συγγραφέων, των οποίων έχουμε διαθέσιμο δείγμα γραφής. Απαντάμε, επομένως, στην ερώτηση «Ποιος από τους Α, Β, Γ… έγραψε το κείμενο Χ».
Ανοιχτά προβλήματα: Σε αυτά προσπαθούμε να διερευνήσουμε την πατρότητα ενός ή περισσότερων ανώνυμων κειμένων, έχοντας στην κατοχή μας δείγματα γραφής από έναν ή περισσότερους συγγραφείς που, ωστόσο, δε γνωρίζουμε αν είναι υποψήφιοι συγγραφείς. Στην περίπτωση αυτή ο πραγματικός συγγραφέας του κειμένου μπορεί να είναι οποιοσδήποτε και, επομένως, η ερώτηση που απαντάμε είναι: «Έγραψε ο Α συγγραφέας το κείμενο Χ»;
Προβλήματα εντοπισμού χαρακτηριστικών του συγγραφέα: Ο στόχος σε αυτήν την περίπτωση δεν είναι η ταυτοποίηση ενός κειμένου με το πρόσωπο που το έγραψε, αλλά με δημογραφικά, ψυχολογικά κ.ά. χαρακτηριστικά του συγγραφέα, π.χ. ο προσδιορισμός του φύλου του συγγραφέα, της ηλικίας του ή ακόμα και της ψυχολογικής του κατάστασης.
Προβλήματα υφομετρικής ομοιογένειας: Σε αυτήν την κατηγορία ερευνητικών προβλημάτων εντάσσεται ο αυτόματος εντοπισμός της λογοκλοπής και της κακόβουλης τροποποίησης του περιεχομένου σελίδων συνεργατικών ψηφιακών μέσων (π.χ. αλλοίωση ή καταστροφή των σελίδων της Wikipedia). Ο ερευνητικός στόχος σε αυτήν την περίπτωση είναι η μελέτη της κανονικότητας του υφομετρικού προφίλ ενός κειμένου και η χρήση ποσοτικών μεθόδων για την αξιολόγησή του.

Η μεγαλύτερη πρόοδος έχει επιτευχθεί στο πρώτο και στο τρίτο είδος προβλημάτων αφού ανήκουν στη μέθοδο της εποπτευόμενης ταξινόμησης, η οποία έχει εξελιχθεί σημαντικά τα τελευταία χρόνια και έχει σταθερή και υψηλή ακρίβεια εντοπισμού του συγγραφέα και των χαρακτηριστικών του. Η συγκεκριμένη μέθοδος εκπαιδεύει έναν αλγόριθμο ταξινόμησης παρέχοντάς του δεδομένα εκπαίδευσης, τα οποία περιλαμβάνουν εισόδους (στην περίπτωσή μας μετρήσεις υφομετρικών χαρακτηριστικών των κειμένων) και έξοδο (δηλαδή, το συγγραφέα των κειμένων). Ο αλγόριθμος αναπτύσσει ένα μοντέλο βελτιστοποιώντας τη σχέση των εισόδων (υφομετρικά χαρακτηριστικά), έτσι ώστε να προβλέπεται με τη μεγαλύτερη δυνατή ακρίβεια η έξοδος (ο συγγραφέας). Κάθε ανώνυμο κείμενο μετατρέπεται στην ίδια ακολουθία υφομετρικών μετρήσεων με τα δεδομένα εκπαίδευσης και ο αλγόριθμος προβλέπει την κατηγορία του, βάσει του μοντέλου που έχει αναπτυχθεί στα γνωστά δεδομένα. Το σενάριο αυτό προβλέπει ότι τα δεδομένα έχουν συσχετιστεί σωστά με συγκεκριμένες κατηγορίες (εξόδους) και το ανώνυμο κείμενο ανήκει σε κάποια από τις κατηγορίες που έχουμε στο δείγμα μας (κλειστό πρόβλημα).

Για να προβούμε στην εκπαίδευση του αλγορίθμου θα πρέπει να μετατρέψουμε το κείμενο σε μια σειρά μετρήσεων. Η διαδικασία αυτή ξεκινά από την επιλογή των κειμενικών χαρακτηριστικών που θα ποσοτικοποιήσουμε και τελειώνει με τη χρήση ειδικού λογισμικού, το οποίο θα αναλάβει να κάνει το μέτρημα. Τα κειμενικά εκείνα χαρακτηριστικά τα οποία συσχετίζονται με το συγγραφέα, είναι πάρα πολλά και εκτείνονται σε όλο το φάσμα των γλωσσικών επιπέδων. Από αυτά επιλέγονται μόνο όσα μπορούν να μετρηθούν αυτόματα με τη χρήση εργαλείων Επεξεργασίας Φυσικής Γλώσσας. Μια δεύτερη παράμετρος επιλογής είναι η σχέση των κειμενικών χαρακτηριστικών με το περιεχόμενο. Καταβάλλεται προσπάθεια να μετρηθούν χαρακτηριστικά που είναι ανεξάρτητα του περιεχομένου του κειμένου, γιατί θέλουμε οι μετρήσεις μας να μη συγχέονται με τη θεματική κατηγοριοποίησή του ή το κειμενικό του γένος και η χρήση τους να είναι αποτέλεσμα υποσυνείδητων γλωσσικών συνηθειών του συγγραφέα.

Το σύνολο των μετρήσεων που κάνουμε στα κείμενα ενός συγγραφέα καταρτίζουν το υφομετρικό του προφίλ. Αυτό το προφίλ είναι η ποσοτική έκφραση των γλωσσικών επιλογών (ασυνείδητων ως επί το πλείστον), τις οποίες κάνει ο συγγραφέας στα κείμενά του. Επειδή έχει ποσοτική έκφραση είναι δυνατόν να συγκριθεί αντικειμενικά με άλλα υφομετρικά προφίλ διαφορετικών συγγραφέων. Η σύγκριση, βέβαια, δεν παράγει ποιοτική διαβάθμιση (ο συγγραφέας Α έχει καλύτερο υφομετρικό προφίλ από το Β) και έχει αποκλειστικό στόχο τον εμπειρικό προσδιορισμό της ατομικότητας του συγκεκριμένου συγγραφέα. Στο σημείο αυτό θα πρέπει να κάνουμε μια διευκρίνιση σε σχέση με τη χρήση του πρώτου συνθετικού του όρου υφομετρία. Η έννοια του ύφους είναι εξαιρετικά πολύσημη και ειδικά στο πλαίσιο της λογοτεχνικής ανάλυσης εκφράζεται με υποκειμενικούς όρους, οι οποίοι στις περισσότερες των περιπτώσεων δεν μπορούν να συνδεθούν με αντικειμενικές ιδιότητες των κειμένων.

Στην υφομετρική ανάλυση δεν αξιολογούμε το κείμενο, ούτε μελετάμε τις μεθόδους με τις οποίες ένα λογοτεχνικό είδος δομείται. Η υφομετρική ανάλυση περιορίζεται στη μελέτη των κειμενικών χαρακτηριστικών, εκείνων που μπορούν να μετρηθούν αυτόματα από υπολογιστικά εργαλεία και στην επιλογή αυτών που λειτουργούν διακριτικά ως προς τη συγγραφική πατρότητα του κειμένου. Ο απώτερος στόχος είναι η δημιουργία «υφομετρικών αποτυπωμάτων» ή «υφομετρικών γονιδιωμάτων», για να χρησιμοποιήσουμε παραλληλισμούς με χαρακτηριστικές βιομετρικές τεχνικές. Η πιθανότητα να ταυτιστεί λάθος άτομο από δείγμα DNA είναι περίπου μία στο ένα δισεκατομμύριο, γεγονός που το καθιστά προς το παρόν το απόλυτο βιομετρικό τεστ σε εγκληματολογικές εφαρμογές. Η υφομετρική ταυτότητα, όμως, απέχει πολύ από αυτά τα επίπεδα ταυτοποίησης. Για την ακρίβεια, η υφομετρική μέθοδος δεν έχει ακόμα καθορίσει ένα τυποποιημένο επίπεδο λάθους, με αποτέλεσμα κάθε ερευνητής, ανάλογα με τις μεθόδους και τα εργαλεία που χρησιμοποιεί, να εντοπίζει με κυμαινόμενο βαθμό ακρίβειας συγγραφείς που προέρχονται από κοινά δεδομένα.

Υπάρχει, ωστόσο, υφομετρικό «αποτύπωμα» ή η ερευνητική κοινότητα είναι δέσμια της επιτυχίας των βιομετρικών «αποτυπωμάτων» και κυνηγά μία χίμαιρα; Η γλωσσική χρήση είναι μια εξαιρετικά πολύπλοκη διαδικασία. Αν και κατά βάση είναι βιολογική λειτουργία, δέχεται ταυτόχρονα επιρροές από κοινωνικές και ψυχολογικές παραμέτρους. Αυτό που μετράμε, επομένως, είναι ένα σύνθετο σήμα το οποίο έχει αρκετό «θόρυβο» από εξωγλωσσικές πηγές και οι οποίες αναγκαστικά εμπλέκονται στην ατομικότητα της γραφής του καθενός. Άλλες φορές την κάνουν μοναδική, ενώ κάποιες άλλες φορές την σπρώχνουν σε συλλογικούς μέσους όρους, οι οποίοι προσδιορίζονται από απρόβλεπτες παραμέτρους του επικοινωνιακού γεγονότος.

Το υφομετρικό «αποτύπωμα», επομένως, είναι μια μεταφορά που εννοιολογικά διευκολύνει την κατανόηση της μεθόδου, αλλά σε θεωρητικό επίπεδο δεν αντιστοιχεί στον τρόπο με τον οποίο τα γλωσσικά χαρακτηριστικά και η ποσοτική τους έκφραση συνδέονται με τη γλωσσική παραγωγή ενός συγγραφέα. Δεν υπάρχει, δηλαδή, μέχρι σήμερα ένδειξη ότι ένας συγγραφέας μπορεί να διακριθεί με απόλυτο τρόπο σε σχέση με τους άλλους, βάσει συγκεκριμένης ποσοτικής έκφρασης γλωσσικού χαρακτηριστικού ή ακολουθίας γλωσσικών χαρακτηριστικών, όπως για παράδειγμα ισχύει στο DNA. Στην περίπτωση του ανθρώπινου γονιδιώματος συγκεκριμένες ακολουθίες πρωτεϊνών μαρκάρουν και δένουν «οριστικά» ένα άτομο με το βιολογικό του δείγμα. Στην υφομετρία η διάκριση του συγγραφέα Α από το Β μπορεί να στηρίζεται στη διαφορετική συχνότητα χρήσης συγκεκριμένων λέξεων (π.χ. Χ και Ψ), ενώ ο ίδιος συγγραφέας Α να διακρίνεται από έναν τρίτο συγγραφέα Γ, από τη διαφορετική συχνότητα μιας άλλης ακολουθίας λέξεων (π.χ. Ψ και Ω). Εάν, όμως, υπήρχε υφομετρικό «αποτύπωμα», θα αρκούσε η ακολουθία λέξεων Χ και Ψ να συσχετιστεί με το συγγραφέα Α και αυτή θα διέκρινε τον Α από όλους τους υπάρχοντες συγγραφείς.

Η απόρριψη της έννοιας του υφομετρικού «αποτυπώματος» δε σημαίνει ότι η υπολογιστική υφολογία δεν είναι ακριβής επιστήμη. Όπως θα δούμε και αργότερα τα επίπεδα αναγνώρισης συγγραφέων σε κλειστά προβλήματα είναι εξαιρετικά υψηλά και, εφόσον η διερεύνηση γίνει βάσει συγκεκριμένων αρχών, τα αποτελέσματα που προκύπτουν είναι και αξιόπιστα και έγκυρα. Αυτό που θα πρέπει να τονιστεί είναι ότι, όπως κάθε εργαλείο στα ανειδίκευτα χέρια μπορεί να γίνει επικίνδυνο, έτσι και στην υφομετρική ανάλυση, η απόδοση συγγραφικής πατρότητας σε κρίσιμα πραγματικά προβλήματα (π.χ. εγκληματολογικού ενδιαφέροντος) θα πρέπει να γίνεται κάτω από συγκεκριμένες αυστηρές προδιαγραφές, οι οποίες ελαχιστοποιούν το πειραματικό λάθος και προϋπολογίζουν την επίδρασή του στο τελικό αποτέλεσμα της απόδοσης της συγγραφικής πατρότητας.

Ενδεικτική Βιβλιογραφία

Chaski, Carole E. (2001). Empirical evaluations of language-based author identification techniques. Forensic Linguistics, 8(1), 1-65.
Grieve, Jack William. (2005). Quantitative authorship attribution: a history and an evaluation of techniques. Master of Arts, Simon Fraser University, Burnaby, B.C. Retrieved from http://ir.lib.sfu.ca/handle/1892/2055
Juola, P. (2008). Authorship attribution. Foundations and Trends® in Information Retrieval, 1(3), 233-334. doi: 10.1561/1500000005
Μικρός, Γ. Κ. (2015). Υπολογιστική Υφολογία. Αθήνα: Ελληνικά Ακαδημαϊκά Ηλεκτρονικά Συγγράμματα και Βοηθήματα - www.kallipos.gr.
Stamatatos, Efstathios. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60(3), 538-556. doi: 10.1002/asi.21001

Έγκλημα & Επιστήμες

Υπολογιστική Υφολογία: Απόδοση της συγγραφικής πατρότητας σε ανώνυμα κείμενα

Ενδεικτική Βιβλιογραφία

Σχετικά άρθρα

Τεχνολογία αναγνώρισης προσώπου
στον τομέα της δημόσιας ασφάλειας:
λειτουργία, εφαρμογές και προκλήσεις

Ανθρωποκτονία με δράστες
πάσχοντες από άνοια

Εφαρμογές της εικονικής πραγματικότητας
στο πεδίο της ποινικής δικαιοσύνης

Ο Έλον Μασκ ανακαλύπτει το αλφάβητο

Μορφές τεχνοεποπτείας στην σύγχρονη
αντεγκληματική πολιτική. Η περίπτωση
των «καμερών που φέρουν πάνω τους
οι αστυνομικοί» (Police Body-Worn Cameras)

Η Ψυχολογία της Ομολογίας: Η συνεισφορά
της Δικαστικής Ψυχολογίας
στην ανεύρεση της ουσιαστικής αλήθειας
και την προστασία των δικαιωμάτων του υπόπτου

Αρχαιολογία και Context Delicti:
Η εκ του σύνεγγυς «συνομιλία» στο
πεδίο των εγκληματολογικών ερευνών

Ομαδικό πορτραίτο με ένα νεκρό

Το πρωτόκολλο δικανικής συνέντευξης ανήλικων θυμάτων κακοποίησης: όταν η Εγκληματολογία συναντά την Ψυχολογία

DNA και Ποινική Απόδειξη.
H Δογματική του άρ. 201 ΚΠΔ

Ο περιβαλλοντικός σχεδιασμός ως μέθοδος πρόληψης του εγκλήματος στις σύγχρονες πόλεις (CPTED)

Κυβερνοέγκλημα και ηλεκτρονική απόδειξη –
ένας τρόπος εξακρίβωσης του ψηφιακού αποτυπώματός του. Ευρώπη με μια ματιά.

Cybercrime and electronic evidence –
a way of identifying its digital prints.
Europe at a glance.

Αναζήτηση συγγενικών δεσμών: μια νέα διάσταση
της χρήσης των γενετικών αποτυπωμάτων
στη διαλεύκανση εγκληματικών πράξεων

Artificial Intelligence Sells...
But Do we really Need to Buy?