Deep Learning – Το επόμενο στάδιο στα video analytics
Η ανερχόμενη τάση του Deep Learning στα συστήματα βίντεο επιτήρησης αναβαθμίζει σημαντικά τα video analytics με την ευρύτερη έννοια και επιτρέπει στους integrators και τους εγκαταστάτες να προσφέρουν λύσεις στους πελάτες τους που θα είναι περισσότερο προσαρμοσμένες στις δικές τους ιδιαίτερες απαιτήσεις.
Του Αριστοτέλη Λυμπερόπουλου
Ο όρος έξυπνα video analytics δεν είναι κάτι το καινούριο για όσους ασχολούνται με τα ηλεκτρονικά συστήματα ασφάλειας και ειδικά με τα συστήματα επιτήρησης. Σχεδόν έχουν περάσει πάνω από 10 χρόνια από την εμπορική εμφάνιση της συγκεκριμένης τεχνολογίας και είναι δύσκολο να βρεθεί κάποιος που να αμφισβητήσει ότι τα video analytics έχουν προσδώσει μια σημαντική επιπρόσθετη αξία στα συστήματα επιτήρησης.
Η συζήτηση που γίνεται όμως και παρουσιάζει ιδιαίτερο ενδιαφέρον είναι αν κατά πόσο αυτή η τεχνολογία μπορεί σήμερα να θεωρηθεί πραγματικά “έξυπνη”. Η μια πλευρά -που αποτελείται κυρίως από τα στελέχη των εταιρειών που πωλούν και διαθέτουν στην αγορά συστήματα video analytics- υποστηρίζουν ότι όντως η τεχνολογία ενσωματώνει σε μεγάλο βαθμό στοιχεία τεχνητής ευφυΐας. Κάποιοι εγκαταστάτες ή εταιρίες που υλοποιούν έργα από την άλλη πλευρά συχνά διαφωνούν με αυτήν την προσέγγιση. Μια νέα εξέλιξη που αποκαλείται ως τεχνολογία βαθιάς εκμάθησης (deep learning) στα συστήματα ασφάλειας μπορεί να συμβάλλει ουσιαστικά στην μεταστροφή αυτών των απόψεων.
Καταρχήν, δύο είναι θεωρητικά τα στάδια κατά την ενσωμάτωση των video analytics σε μια εφαρμογή επιτήρησης. Το αρχικό στάδιο, στο οποίο ο κατασκευαστής ενσωματώνει την τεχνολογία σε ένα σύστημα επιτήρησης. Εδώ πρόκειται για μια τυποποιημένη επαναλαμβανόμενη παραγωγική διαδικασία χωρίς ιδιαίτερες δυσκολίες. Το δεύτερο στάδιο και αρκετά πιο χρονοβόρο, είναι η προσαρμογή κάθε λύσης video analytics στην εκάστοτε εφαρμογή. Αυτό το στάδιο, συνήθως απαιτεί αρκετή έρευνα, μελέτη και αξιολόγηση σε κάθε εγκατάσταση και πολύ χρόνο σε εξειδικευμένες παραμετροποιήσεις. Κάθε εγκατάσταση είναι διαφορετική, αλλά και οι απαιτήσεις των χρηστών διαφέρουν σημαντικά από εφαρμογή σε εφαρμογή. Παραδείγματος χάρη, σε μια εφαρμογή μπορεί να χρειάζεται η επιτήρηση μόνο των οχημάτων, ενώ σε άλλη εφαρμογή να απαιτείται η καθολική επιτήρηση οχημάτων και προσώπων. Σε άλλες περιοχές μπορεί να δίνεται μεγαλύτερη έμφαση στην ασφάλεια και στην αποτροπή παράνομων εισβολών (στρατιωτικές ή κρίσιμης σημασίας εγκαταστάσεις), ενώ σε άλλες να εστιάζουν περισσότερο στις δυνατότητες διαχείρισης της εγκατάστασης και του πλήθους που κινείται μέσα σε αυτές (εμπορικά κέντρα).
Ορίζοντας την τεχνητή ευφυΐα
Όπως και σε πολλούς άλλους κλάδους, έτσι και στη βιομηχανία των συστημάτων ηλεκτρονικής ασφάλειας, ο όρος “τεχνητή νοημοσύνη” αρκετές φορές ερμηνεύεται με μια ευρεία και γενικόλογη προσέγγιση. Αυτό δεν είναι απαραίτητα λάθος, αλλά μερικές φορές μπορεί να είναι παραπλανητικό. Τι σημαίνει άραγε ότι ένα σύστημα διαθέτει στοιχεία τεχνητής ευφυΐας;
Για πολλούς ένα σύστημα που χρησιμοποιεί δύο διαφορετικές πηγές δεδομένων για να διασταυρώσει μια πληροφορία και να καταλήξει σε ένα αποτέλεσμα, είναι ένα σύστημα τεχνητής ευφυΐας. Οι περισσότεροι φυσικά, προσδίδουν σε ένα σύστημα χαρακτηριστικά τεχνητής ευφυΐας, όταν βασίζει τα αποτελέσματα που παράγει σε περισσότερα των δύο κριτηρίων. Κανείς δεν αμφισβητεί, ότι αυτά τα συστήματα διαθέτουν μια ισχυρή υπολογιστική δύναμη, αλλά όμως οι αποφάσεις που εξαγάγουν βασίζονται σε συγκεκριμένα δεδομένα που σχετίζονται κυρίως με αριθμητικές τιμές και όχι στη δυνατότητα τους να αντιλαμβάνονται την διεργασία με την οποία εξελίσσεται ένα συμβάν (κάτι το οποίο έχει την δυνατότητα να κάνει το ανθρώπινο μυαλό). Δηλαδή, θα διαπιστώνουν ότι κάτι συμβαίνει όταν μεταβληθεί ο αριθμός των pixel σε μια εικόνα. Όλα αυτά, βασίζονται σε συγκεκριμένους αλγόριθμους και έχουν τη δυνατότητα να κάνουν την επεξεργασία που απαιτείται μόνο βασιζόμενα σε κάποια συγκεκριμένα κριτήρια.
Αυτό που λείπει στους υφιστάμενους αλγόριθμους video analytics, είναι η δυνατότητα να προχωρούν μόνα τους σε μια αναγνώριση σεναρίων που ήδη έχουν γίνει και να τοποθετούν νέα κριτήρια επεξεργασίας τα οποία να βασίζονται στις πληροφορίες που παίρνουν κατά την διάρκεια της λειτουργίας τους. Δηλαδή να μην βασίζονται μόνο στα κριτήρια που έχουν εισαχθεί είτε από τον κατασκευαστή του συστήματος, είτε στην καλύτερη περίπτωση από τους εγκαταστάτες, αλλά να μαθαίνουν συνεχώς καθ’ όλη την διάρκεια της λειτουργίας τους και να αναπροσαρμόζουν τον τρόπο με τον οποίο επεξεργάζονται τις διάφορες σκηνές που καταγράφουν. Αυτό είναι το χαρακτηριστικό που αποκαλούμε σήμερα ως δυνατότητα συνεχούς και βαθιάς εκμάθησης ή πιο γνωστό ως deep learning.
Το Deep Learning ήρθε για να μείνει!
Εδώ και αρκετά χρόνια η τεχνητή νοημοσύνη, τα νευρωνικά δίκτυα (neural networking) και πιο πρόσφατα η βαθιά εκμάθηση αποτελούν τεχνολογίες, που εξελίσσονται διαρκώς και οι επιδράσεις τους γίνονται όλο και πιο έντονες σχεδόν σε όλους τους κλάδους της ανθρώπινης δραστηριότητας. Τα ηλεκτρονικά συστήματα ασφάλειας, δεν θα μπορούσαν να αποτελούν εξαίρεση. Όμως για να κατανοήσουμε αυτή την επίδραση και τον τρόπο με τον οποίο θα επηρεάσουν τη λειτουργία των συστημάτων επιτήρησης, οφείλουμε να γνωρίσουμε καλύτερα τι πραγματικά κρύβεται πίσω από τον πολυσυζητημένο όρο της βαθιάς εκμάθησης. Πολλοί το θεωρούν ως μια πιο εξελιγμένη έκδοση των νευρωνικών δικτύων. Η πραγματικότητα είναι ότι η τεχνολογία της βαθιάς εκμάθησης βασίζεται στη χρήση πολλαπλών επιπέδων επεξεργασίας. Κάθε επίπεδο κάνει χρήση εισερχόμενων και εξερχόμενων σημάτων. Δηλαδή το ένα επίπεδο βλέπει τα δεδομένα που προέρχονται από το προηγούμενο επίπεδο, ως εισερχόμενα. Σε κάθε επίπεδο, γίνεται μια υπολογιστική επεξεργασία δεδομένων και στη συνέχεια στέλνει τα δεδομένα στο επόμενο επίπεδο. Επειδή ακριβώς η τεχνολογία βασίζεται στη χρήση πολλαπλών υπο-επιπέδων, ονομάστηκε βαθιά εκμάθηση.
Το κλειδί φυσικά, είναι η δυνατότητα εκμάθησης και εδώ γίνεται η χρήση της τεχνολογίας των νευρωνικών δικτύων, τα οποία προσομοιάζουν τον τρόπο με τον οποίο εργάζεται το ανθρώπινο μυαλό, το οποίο έχει τη δυνατότητα της συνεχούς εκμάθησης και τροποποίησης του τρόπου με τον οποίο επεξεργάζεται τις πληροφορίες.
Ενώ μέχρι τώρα τα συστήματα τεχνητής νοημοσύνης σε ότι αφορά τις εφαρμογές επιτήρησης είχαν ως βασικό κριτήριο επεξεργασίας τις τιμές των pixel, τώρα με την είσοδο της τεχνολογίας deep learning χρησιμοποιούνται και άλλοι παράμετροι εκτός των τιμών των pixel για την αναγνώριση των αντικειμένων. Παράμετροι, όπως τα περιγράμματα και τα σχήματα των αντικειμένων αλλά και άλλα οπτικά στοιχεία, βοηθούν στην πιο αποτελεσματική επεξεργασία των δεδομένων και άρα στην καλύτερη αναγνώριση των αντικειμένων.
Στο παρελθόν, σκοπός όσων ασχολούνταν με την ενσωμάτωση της τεχνητής νοημοσύνης και της βαθιάς εκμάθησης στα συστήματα επιτήρησης, ήταν να πετύχουν μια απλή αναγνώριση αντικειμένων. Δηλαδή για παράδειγμα, να μπορούν τα συστήματα να αντιλαμβάνονται τη διαφορά μεταξύ ανθρώπου και ζώου. Πλέον, έχουμε περάσει σε ένα επόμενο στάδιο, όπου είναι εφικτή και η διαφοροποίηση μεταξύ ζώων, όπως για παράδειγμα μεταξύ ενός σκύλου και ενός αλόγου. Επιπλέον, στις εφαρμογές ασφάλειας και video analytics επιτρέπεται πλέον η συνεχής βελτίωση του συστήματος, μέσω της αυτο-εκπαίδευσης, όπου έτσι μπορεί συνεχώς να βελτιώνεται και να αντιλαμβάνεται διαφορετικές συμπεριφορές κινούμενων αντικειμένων, να αναγνωρίζει μεμονωμένα αντικείμενα και να αντιλαμβάνεται απροσδόκητες ή ύποπτες κινήσεις.
Η σημασία όλων αυτών, είναι ότι πλέον απαιτείται πολύ λιγότερη εργασία από τον εγκαταστάτη στη ρύθμιση ενός συστήματος video analytics. Το σύστημα μπορεί από μόνο του να παρουσιάζει στους τελικούς χρήστες μια σειρά συμβάντων. Ο διαχειριστής, αποφασίζει ποια από αυτά είναι σημαντικά και πλέον το σύστημα επιτήρησης εστιάζει μόνο σε αυτά τα συμβάντα και χρησιμοποιεί τα κριτήρια που του έχει θέσει ο χρήστης. Επιπλέον, η τεχνολογία της βαθιάς εκμάθησης δίνει τη δυνατότητα στο σύστημα να εκπαιδεύεται για μια χρονική περίοδο. Αυτό στην πράξη, σημαίνει ότι αν ανιχνεύσει μια δραστηριότητα που δεν έχει εντοπίσει στο αρχικό στάδιο ρυθμίσεων, τότε παρουσιάζει πάλι στον χρήση και αυτός αποφασίζει πάλι αν αυτό είναι όντως σημαντικό.
Η υλοποίηση
Είναι προφανές από όλα τα παραπάνω ότι η τεχνολογία της βαθιάς εκμάθησης παρουσιάζει ιδιαίτερο ενδιαφέρον στα συστήματα επιτήρησης. Όμως, η επιτυχής υλοποίησης της προϋποθέτει τη συνεργασία των εγκαταστατών με τους οίκους κατασκευής αυτών των συστημάτων, ώστε να παρουσιαστούν συστήματα που να μπορούν να είναι πραγματικά χρήσιμα στους τελικούς χρήστες. Διότι, πίσω από τον όρο deep learning υπάρχει ένα τεράστιο εύρος εφαρμογών όπου θα πρέπει να γίνει η κατάλληλη αξιοποίηση τους.
Η εμφάνιση όλων και ισχυρότερων μονάδων επεξεργασίας γραφικών (graphical processing units) θα συμβάλλει στην γρηγορότερη ενσωμάτωση των τεχνολογιών deep learning. Εδώ, σημαντικό ρόλο θα παίξει και η αυξανόμενη δυνατότητα για επεξεργασία υψηλής ποιότητας τρισδιάστατων εικόνων, οι οποίες και αυτές βοηθούν στην αποτελεσματικότερη ανάλυση των συμβάντων.
Μπορεί ίσως σήμερα να φαίνεται πρώιμο, αλλά για όσους έχουν περάσει τη διαδικασία παραμετροποίησης ενός συστήματος επιτήρησης video analytics, ώστε αυτό να είναι όντως αποτελεσματικό, είναι σίγουρο ότι η τεχνολογία της βαθιάς εκμάθησης θα προσφέρει ένα σημαντικό χέρι βοήθειας. Θα ανεβάσει ακόμα περισσότερο τον πήχη προσδοκιών από τα συστήματα επιτήρησης, καθώς οι τελικοί χρήστες θα έχουν τη δυνατότητα να εκμεταλλεύονται πολύ μεγαλύτερο ποσοστό των δυνατοτήτων που προσφέρει η τεχνολογία video analytics. Ουσιαστικά, η τεχνολογία deep learning θα αναβαθμίσει τα video analytics. Θα τα κάνει πιο αποτελεσματικά για τον τελικό χρήστη και παράλληλα θα διευκολύνει σημαντικά την εργασία των εγκαταστατών. Εξελίξεις που δίχως άλλως θα συμβάλλουν στην περαιτέρω εξάπλωση των συστημάτων επιτήρησης και στην διεύρυνση του μεριδίου που θα καταλάβουν στην συνολική αγορά των συστημάτων ηλεκτρονικής ασφάλειας.