Perceptron: Ο Τεχνητός Νευρώνας που Θεμελίωσε την ΤΝ

Ο Perceptron ήταν ο πρώτος πρακτικά εκπαιδεύσιμος/λειτουργικός νευρώνας σε υπολογιστή, παρότι δημιουργήθηκε το 1957, η ιδέα του παραμένει ο πυρήνας κάθε deep learning μοντέλου. Σήμερα μιλάμε για Deep Learning, Transformers και LLMs. Όμως όλα ξεκίνησαν από ένα απλό — σχεδόν στοιχειώδες — μαθηματικό μοντέλο: τον Perceptron.

Η αρχική ιδέα ενός μοντέλου τεχνητού νευρώνα χρονολογείται ήδη από το 1943 με το μοντέλο McCulloch–Pitts
Ο perceptron προτάθηκε το 1957 από τον Frank Rosenblatt στο Cornell Aeronautical Laboratory.
Το 1958 κατασκευάστηκε η πρώτη φυσική υλοποίηση: το Mark I Perceptron, ένα σύστημα αναγνώρισης προτύπων βασισμένο σε φωτοηλεκτρικά κύτταρα.
Το 1969, οι Marvin Minsky και Seymour Papert στο βιβλίο τους Perceptrons απέδειξαν ότι ο απλός perceptron δεν μπορεί να λύσει μη γραμμικά προβλήματα όπως το XOR. Αυτό οδήγησε στην πρώτη «χειμερινή περίοδο» της Τεχνητής Νοημοσύνης.
Αυτό οδήγησε σε μια περίοδο μειωμένου ενδιαφέροντος για νευρωνικά δίκτυα (AI Winter), μέχρι την επανεκκίνηση με backpropagation στα 1980s.

Τι είναι νευρώνας

Ο νευρώνας είναι η βασική λειτουργική μονάδα του νευρικού συστήματος. Δέχεται σήματα μέσω των δενδριτών, τα επεξεργάζεται στο κυτταρικό σώμα και, εφόσον η διέγερση υπερβεί ένα κατώφλι, μεταδίδει ηλεκτρικό παλμό μέσω του άξονα σε άλλους νευρώνες. Οι συνδέσεις μεταξύ νευρώνων ονομάζονται συνάψεις και αποτελούν τη βάση της μνήμης και της μάθησης. Στα τεχνητά νευρωνικά δίκτυα, ο τεχνητός νευρώνας μοντελοποιεί αυτή τη λειτουργία μέσω βαρών, αθροίσματος και συνάρτησης ενεργοποίησης.

Βιολογικός Νευρώνας

Πώς επεξεργάζεται ο εγκέφαλος τις πληροφορίες; Απεικόνιση ενός Βιολογικού νευρώνα

Είσοδος: Δενδρίτης
Έξοδος: Άξονας

Τεχνητός Νευρώνας

Πώς επεξεργάζεται ο τεχνητός νευρώνας τις πληροφορίες;

Είσοδος: x_i, (i=1,…,n)
- Βάρος Εισόδου: w_i, (i=1,…,n)
Πόλωση: w₀, τιμη βάρους μιας σύνδεσης που η είσοδος της (x₀) είναι μόνιμα στην τιμή 1
Έξοδος: ο, βασει συνάρτησης ενεργοποίησης

Ο υπολογιστής διαθέτει μία CPU με ~10⁸ πύλες και λειτουργεί κυρίως σειριακά, με χρόνο κύκλου 10⁻⁹ sec. Αντίθετα, ο ανθρώπινος εγκέφαλος έχει περίπου 10¹¹ νευρώνες και 10¹⁴ συνάψεις, λειτουργώντας μαζικά παράλληλα με χρόνο κύκλου 10⁻³ sec. Παρότι ο υπολογιστής είναι πολύ ταχύτερος ανά πράξη, ο εγκέφαλος επιτυγχάνει τεράστια συνολική υπολογιστική ισχύ λόγω παραλληλισμού. Επιπλέον, στον εγκέφαλο η μνήμη και η επεξεργασία συνυπάρχουν στις συνάψεις, ενώ στον υπολογιστή είναι διαχωρισμένες. Αυτό εξηγεί γιατί τα νευρωνικά δίκτυα βασίζονται σε βιολογικά πρότυπα.

Τι είναι ο Perceptron

Ο perceptron είναι γραμμικός δυαδικός ταξινομητής. Ενα δίκτυο ενός νευρώνα με συνάρτηση ενεργοποίησης τη βηματική συνάρτηση ονομάζεται Perceptron (ή απλός αισθητήρας). Ο σκοπός του νευρώνα είναι ανάλογα με την είσοδο που δέχεται να την ταξινομήσει σε μία από δύο κλάσεις. Αν το αποτέλεσμα είναι θετικό – δίνει την απάντηση “ΝΑΙ”, στην κλάση 1. Αν αρνητικό – δίνει την απάντηση “ΟΧΙ” στην κλάση 2.

Αν δεδομένα εισόδων: x = (x₁, x₂ ,…, x_n) η έξοδος u(x) υπολογίζεται σε δύο στάδια. Πρώτα υπολογίζεται η συνολική είσοδος:

u(x) = \sum_{i=1}^{n} w_i x_i + x_0

και στην συνέχεια η έξοδος προκύπτει ως: Αν u(x) > 0 τότε o(x) = 1 (κλάση 1) ειδάλλως o(x) = -1 (κλάση 2). Ο perceptron μπορεί να λύσει μόνο γραμμικά διαχωρίσιμα προβλήματα.

Ο Περιορισμός: Το XOR δεν είναι γραμμικά διαχωρίσιμο, άρα απαιτούνται πολλαπλά επίπεδα (MLP). Η λύση ήρθε με τα πολυεπίπεδα δίκτυα (MLP) και την αναβίωση της ΤΝ τη δεκαετία του 1980 μέσω του backpropagation.

Γεωμετρική Ερμηνεία

Ο perceptron χωρίζει τον χώρο (σύνολο δεδομένων) με ένα υπερεπίπεδο.

Σε 2 διαστάσεις → μια ευθεία
Σε 3 διαστάσεις → ένα επίπεδο
Σε n διαστάσεις → υπερεπίπεδο

Ουσιαστικά, «μαθαίνει» πού να τοποθετήσει τη γραμμή που διαχωρίζει δύο κατηγορίες από ένα σύνολο δεδομένων.

Πώς Μαθαίνει ο Perceptron – Ο Κανόνας Εκπαίδευσης

Ο Perceptron δεν είναι απλώς ένας μαθηματικός μηχανισμός. Είναι ο πρώτος αλγόριθμος που μπορούσε να μάθει από δεδομένα. Μάθηση είναι η μεταβολή των βαρών ΄ώστε να προκύψει η μεταβολή της θέσης του υπερεπιπέδου. Η εκπαίδευση του perceptron συνίσταται στην εύρεση του διαχωριστικού υπερεπιπέδου.

Η λειτουργία του βασίζεται στην εξίσωση:
$y = sign(w \cdot x + b)$
Όπου: sign = συνάρτηση που επιστρέφει +1 ή -1, x = διάνυσμα εισόδων, w = βάρη, x₀ ή b = bias

Όταν το μοντέλο κάνει λάθος, ενημερώνει τα βάρη ως εξής: $w_{new} = w_{old} + \eta \cdot y \cdot x$ $b_{new} = b_{old} + \eta \cdot y$
Όπου: $y$ = πραγματική ετικέτα, $η$ = ρυθμός μάθησης (learning rate)

Γιατί Είναι Σημαντικός

Ο perceptron εισήγαγε την έννοια των βαρών, τη μάθηση μέσω προσαρμογής, τη μαθηματική μοντελοποίηση νευρωνικών δομών. Αποτελέι τη γέφυρα μεταξύ νευροεπιστήμης και υπολογιστικών συστημάτων. Χωρίς αυτόν, δεν θα υπήρχε Deep Learning.

Ο απλός perceptron δεν χρησιμοποιείται αυτούσιος σε σύγχρονα συστήματα, όμως αποτελεί τη βάση:

Γραμμικούς ταξινομητές
Logistic Regression
Support Vector Machines

Πρακτικά κάθε νευρώνας σε ένα deep neural network είναι ουσιαστικά ενας Perceptron με μονη διαφορά ότι αντί για sign χρησιμοποιούμε διαφορίσιμες συναρτήσεις (ReLU, sigmoid κ.λπ.).

Ο Perceptron δεν ήταν τέλειος. Δεν μπορούσε να λύσει όλα τα προβλήματα. Όμως απέδειξε κάτι θεμελιώδες: ότι ένας υπολογιστής μπορεί να προσαρμόζει τη συμπεριφορά του μέσα από εμπειρία.

Και αυτή ήταν η αρχή.

Σχετιζόμενο Ακαδημαικό Πρόγραμμα

ΕΑΠ ΠΛΗ 31 Τεχνητή Νοημοσύνη