BREAKING

3

PlaNet. Το σύστημα τεχνητής νοημοσύνης της Google που αναγνωρίζει την τοποθεσία μίας φωτό χωρίς geotags!

Ένα νέο νευρωνικό δίκτυο που ανέπτυξε η Google μπορεί να υπολογίζει την ακριβή τοποθεσία μίας φωτογραφίας, χωρίς την ανάγκη geotags. Πρόκειται για ένα επίτευγμα της τεχνητής νοημοσύνης που θεωρείται πραγματικά εντυπωσιακό.

Screen Shot 2016-02-27 at 12.03.42

Το project έχει επικεφαλής τον computer vision specialist της Google, Tobias Reynard, και, όπως φαίνεται, το πρόγραμμα με τη βοήθεια της AI μπορεί να ξεπεράσει την ικανότητα ενός ανθρώπου να αναγνωρίζει την τοποθεσία μίας φωτογραφίας. Έχει επίσης δικό του αλγόριθμο που μπορεί να υπολογίζει ακόμη και την τοποθεσία φωτογραφιών που έχουν τραβηχθεί σε εσωτερικό χώρο!

Η ομάδα δημιούργησε μία βάση δεδομένων 126 εκατομμυρίων φωτογραφιών με geolocations από το Web και χρησιμοποίησε τα data ώστε να προσδιορίσει πού έχει τραβηχθεί η κάθε μία. Χρησιμοποιώντας 91 εκατομμύρια από αυτές τις φωτό, “δίδαξε” ένα νευρωνικό δίκτυο ώστε να μπορεί να αναγνωρίζει την τοποθεσία μίας φωτογραφίας και το αποτέλεσμα ήταν πέραν του αναμενομένου.

Η τεχνητή νοημοσύνη της Google που ονομάζεται PlaNet πραγματοποίησε δοκιμές σε 2,3 εκατομμύρια εικόνες και υπολόγισε σωστά την πόλη προέλευσής στο 10,1%, τη χώρα στο 28,4%.από αυτές, ενώ όσον αφορά την ήπειρο είχε επιτυχία 48%.

Πρόκειται, όπως σημειώσαμε, για υψηλότερα σκορ από αυτά που ένας άνθρωπος μπορεί να επιτύχει και σίγουρα το μέλλον είναι άκρως υποσχόμενο γι’ αυτό το project, για το οποίο αναμένουμε να δούμε και τι πρακτικές εφαρμογές θα μπορούσε να έχει...

3 Comments

  • lopsi33
    4 Μαρτίου 2016 at 15:53

    Εγώ «έξυπνε» έλληνα ασχολούμαι λίγο με το αντικείμενο κ είμαι σε θέση να ξέρω ότι 10-48% accuracy είναι για τα σκουπίδια σε οποιαδήποτε pattern recognition εφαρμογή. Κ γράφω ότι θέλει πολύ training ακόμα. Αυτό το διάβασες? Το κατάλαβες? Ξέρεις τι θα πει? Γιατί μου πετάς κάτι εκθετικά κ κάτι n στο τετράγωνο κτλ, χωρίς να έχεις ιδέα για τι μιλάς. Θα πει ότι όσο μεγαλώνει το training set το σύστημα αποκτά μια πιο ευρεία άποψη του κόσμου του (της γης στην προκειμένη περίπτωση) και είναι σε θέση να αναγνωρίζει με μεγαλύτερη ακρίβεια την τοποθεσία που τραβήχτηκε κάθε φωτο. K αυτό το πράγμα μόνο εκθετικά δεν γίνεται όμως. Μακάρι να γινόταν έστω γραμμικά (δηλ. να διπλασιάζω το training set κ να παίρνω διπλάσιο accuracy), αλλά ούτε καν..

    Κ έρχεσαι εσύ κ μου τσαμπουνάς κάτι n^2 κ n^4 για την «αναπτυξη σε αυτες τις τεχνολογιες» (κάτι παρόμοια δεν έλεγε κ ο σαμαράς??) λες κ έχεις ιδέα για τι μιλάς. Μάλλον κάπου έχεις ακούσει ότι με τα χρόνια αυξάνεται εκθετικα η πολυπλοκότητα (σωστό αυτό βλ. νόμος του Moore), αλλά στο pattern recognition που σχεδόν όλοι οι δείκτες είναι στο κλειστό διάστημα 0-1, εκθετική αύξηση θα ήταν μείωση (0.5^2>0.5^4).

    Επίσης αν ανοίξεις το paper θα δεις κάτι δίκτυα RNN με την ονομασία lstm που πιάνουν 85%+ στις ίδιες εφαρμογές με το planet της google, πράγμα που χαρακτηρίζει σωστό τον ισχυρισμό μου ότι τα συγκεκριμένα αποτελέσματα είναι χάλια. Με αυτά τα RNN ασχολούμαι εγώ «έξυπνε» έλληνα.

  • John Garrett
    29 Φεβρουαρίου 2016 at 17:28

    +lopsi33 Το σχολιο του χαζου του Ελληνα. Η αναπτυξη σε αυτες τις τεχνολογιες δεν ειναι γραμμικη, ειναι εκθετικη. Δηλαδη τη μια χρονια εισαι στο n στη δευτερα και σε λιγα χρονια n στην τεταρτη και παει λεγοντας. Επισης οσα περισσοτερα του φορτωνεις τοσο περισσοτερο επιτυχια εχει.

  • lopsi33
    27 Φεβρουαρίου 2016 at 22:46

    Καλά με τέτοιο accuracy δεν θα ήμουν κ τόσο περήφανος για να δημοσιεύσω τα αποτελέσματα. :P Θέλει πολύ training ακόμα.