Wearable σύστημα τεχνητής νοημοσύνης που μπορεί να αντιλαμβάνεται τον τόνο μιας συζήτησης

6 Φεβρουαρίου 2017

MIT/CSAIL/Jason Dorfman

Ερευνητές του CSAIL του ΜΙΤ και του IMES (Institute of Medical Engineering and Science) δουλεύουν πάνω σε ένα wearable σύστημα τεχνητής νοημοσύνης το οποίο μπορεί να προβλέψει πότε μια συζήτηση είναι χαρούμενη, λυπημένη ή ουδέτερη, βάσει των χαρακτηριστικών της ομιλίας και των ζωτικών ενδείξεων ενός ανθρώπου.
«Φανταστείτε αν, στο τέλος μιας συζήτησης, μπορούσατε να την γυρίσετε πίσω και να δείτε τις στιγμές που οι άνθρωποι γύρω σας ένιωσαν πιο αγχωμένοι» λέει η Τούκα Αλχανάι, τελειόφοιτη του ΜΙΤ που συνέταξε μαζί με τον διδακτορικό Μοχάμαντ Γκασεμί το σχετικό paper, to οποίο θα παρουσιαστεί στη συνδιάσκεψη της Association for the Advancement of Artificial Intelligence στο Σαν Φρανσίσκο. «Η δουλειά μας είναι ένα βήμα προς αυτή την κατεύθυνση, υποδεικνύοντας πως μπορεί να μην είμαστε μακριά από έναν κόσμο όπου οι άνθρωποι θα μπορούν να έχουν έναν κοινωνικό “κόουτς” – τεχνητή νοημοσύνη στην τσέπη τους».
Ενώ κάποιος μιλάει, το σύστημα μπορεί να αναλύει ήχο, κείμενο απομαγνητοφώνησης και ζωτικές ενδείξεις για να διαπιστώνει τον συνολικό τόνο της κουβέντας με ακρίβεια 83%. Μέσω τεχνικών deep learning, το σύστημα μπορεί επίσης να παρέχει ένα «σκορ συναισθήματος», για συγκεκριμένα αποσπάσματα 5 δευτερολέπτων μέσα σε μια συζήτηση.
Οι ερευνητές υποστηρίζουν πως οι επιδόσεις του συστήματος θα βελτιώνονταν ακόμα περισσότερο εάν πολλοί άνθρωποι σε μια συζήτηση το χρησιμοποιούσαν στα smartwatches τους ταυτόχρονα, δημιουργώντας έτσι περισσότερα δεδομένα προς ανάλυση από τους αλγορίθμους τους. Παράλληλα, τονίζουν πως κατά την ανάπτυξη του συστήματος λαμβάνονται πολύ υπόψιν τα προσωπικά δεδομένα και η προστασία της ιδιωτικότητας του χρήστη, με την Αλχανάι να λέει πως μια έκδοση για το εμπόριο θα χρειαζόταν ξεκάθαρα πρωτόκολλα για να λαμβάνεται η συναίνεση των ατόμων που συμμετέχουν στις συζητήσεις.
Πολλές μελέτες πάνω στον εντοπισμό συναισθημάτων περιλαμβάνουν την προβολή «λυπηρών» ή «χαρούμενων» βίντεο, ή ζητούν από τους συμμετέχοντες να υποκριθούν συναισθηματικές καταστάσεις. Σε αυτή την περίπτωση, ζητήθηκε από τους συμμετέχοντες να αφηγηθούν μια χαρούμενη ή λυπηρή ιστορία της επιλογής τους. Φορούσαν ένα Samsung Simband, μια συσκευή έρευνας που ανιχνεύει ζωτικές ενδείξεις με υψηλή ακρίβεια (χτύπος καρδιάς, ροή αίματος, θερμοκρασία δέρματος κ.α.), ενώ το σύστημα παράλληλα συγκέντρωνε δεδομένα ήχου και κειμένου απομαγνητοφώνησης για την ανάλυση του τόνου των ομιλητών και του λεξιλογίου τους.
Μετά από 31 διαφορετικές συζητήσεις, μερικών λεπτών η καθεμία, η ομάδα «εκπαίδευσε» δύο αλγορίθμους πάνω σε αυτά τα δεδομένα: Ο ένας χαρακτήριζε τη φύση της συζήτησης ως χαρούμενη ή λυπημένη, ενώ ο άλλος χαρακτήριζε κάθε απόσπασμα πέντε δευτερολέπτων ως θετικό, αρνητικό ή ουδέτερο. Οι διαπιστώσεις ήταν αντίστοιχες με αυτά που θα είχε ένας άνθρωπος , πχ μεγάλες παύσεις και μονότονος ηχητικός τόνος βρέθηκαν να σχετίζονται με τις πιο λυπηρές ιστορίες, ενώ πιο ενεργητικές ομιλίες, με διακυμάνσεις, βρέθηκαν να σχετίζονται με τις χαρούμενες.
Ο αλγόριθμος δεν είναι ακόμα αρκετά αξιόπιστος για να χρησιμοποιηθεί για social coaching, αλλά η Αλχανάι αναφέρει πως γίνεται δουλειά προς αυτή την κατεύθυνση, με την ομάδα να αποσκοπεί στο μέλλον σε συγκέντρωση δεδομένων σε πολύ μεγάλη κλίμακα, ίσως μέσω συσκευών όπως το Apple Watch.

Πηγή: naftemporiki.gr