So lernt Google DeepMind wie ein Kind:DeepMind nutzt Videos, um sich selbst etwas über die Welt beizubringen

Das neueste Projekt von Google DeepMind bringt der KI bei, zu verstehen, was in der Welt passiert. Dazu greift es auf einen riesigen Katalog von Videodateien zurück, die ihm dabei helfen, die Welt zu verstehen, in der es lebt.

Bisher haben alle KI-Projekte von DeepMind nach innen geschaut und verstanden, wie KIs schreiben, ihre virtuelle Umgebung interpretieren, Bilder kategorisieren oder sogar die Schwierigkeiten von Bewegungen erfassen können. Aber dieses Mal hat das DeepMind-Team einer KI beigebracht, nach außen zu schauen und zu verstehen, was in der realen Welt vor sich geht, von der sie jetzt ein Teil ist.

Das Projekt lässt eine KI sich selbst beibringen, eine Reihe von visuellen und akustischen Konzepten zu erkennen, indem sie sich kleine Videoschnipsel ansieht. Bisher hat es verstanden, was es bedeutet, einen Rasen zu mähen oder jemanden zu kitzeln, aber zu keinem Zeitpunkt seines Trainings wurden ihm die Worte beigebracht, um zu beschreiben, was es sieht oder hört. Es versteht diese Aktionen ganz von selbst.

So wie DeepMind einer KI beigebracht hat, ihre Umgebung über das Symbol-Concept Association Network zu interpretieren, verfolgt das Team, das dieses DeepMind-Projekt leitet, einen ähnlichen Weg. Anstatt Etiketten zu verwenden, um einer KI beizubringen, was jedes Objekt ist, das sie betrachtet, bringt sich dieses DeepMind-Projekt selbst bei, weil es lernt, Bilder und Geräusche zu erkennen, indem es sie mit dem abgleicht, was es sehen und hören kann.

Diese Lernmethode ist fast genau so, wie Menschen denken und lernen, die Welt um sie herum zu verstehen.

Der Algorithmus begann mit zwei separaten neuronalen Netzwerken – eines für die Bilderkennung, das andere für Audio. Dem Bildnetzwerk wurden Standbilder von Videos gezeigt, und das Audio verarbeitete 1-Sekunden-Clips von derselben Stelle des Videos, an dem das Bildnetzwerk gezeigt wurde. Die KI wurde mit 60 Millionen Standbild-Video- und Audiopaaren aus 400.000 Videos trainiert.

Ein drittes Netzwerk verglich diese Bilder dann mit Audioclips, um herauszufinden, welche Geräusche zu welchen Videostills korrespondierten. Daraus lernte es dann, akustische und visuelle Konzepte wie Menschenmassen, Stepptanz und fließendes Wasser zu erkennen, ohne jemals ein bestimmtes Etikett für ein solches Konzept zu erhalten. Das bedeutet nicht, dass es plötzlich die Worte kannte, um eine solche Aktion zu beschreiben, sondern es bedeutete, dass man ihm zum Beispiel ein neues Bild von jemandem zeigen konnte, der klatschte, und es wüsste, dass ein Clip mit Klatschen dazu passen sollte.

Diese Art des unbeaufsichtigten Selbstlernens gibt KIs die Werkzeuge an die Hand, um in der realen Welt zu agieren und aus dem, was sie sieht und hört, zu lernen, was um sie herum passiert. Dieser Gedanke mag einige Leute beunruhigen, aber im Moment können Sie sicher sein, dass alles, was im DeepMind-Hauptquartier vor sich geht, weit entfernt vom Internet stattfindet und tatsächlich mit der realen Welt interagiert.

Es ist jedoch nur eine Möglichkeit, wie die Roboter lernen könnten, sich zu erheben und uns alle zu versklaven.

Was Google DeepMind der KI bereits beigebracht hat

Google DeepMind interpretiert seine Umgebung wie ein Kind

So lernt Google DeepMind wie ein Kind:DeepMind nutzt Videos, um sich selbst etwas über die Welt beizubringen

Um zu beschleunigen, wie DeepMind Probleme lösen und mit komplexen Situationen umgehen kann, hat sich Google zur Inspiration an den menschlichen Verstand gewandt. Indem DeepMind beigebracht wird, konzeptionelle Werkzeuge zu verwenden, um Probleme zu lösen, so wie es ein menschliches Gehirn tun würde, kann es lernen, wie man eine Vielzahl von Problemen mit Leichtigkeit löst.

Das DeepMind-Team von Google fasst dies anhand eines Beispiels zusammen, wie wir Objekte aus Rohstoffen erstellen, um Werkzeuge zu bauen, die ein Problem lösen – wie etwa den Bau eines Abakus aus Ton, Schilf und Holz, der beim Zählen großer Zahlen hilft. KI-Köpfe denken jedoch nicht so.

KIs behalten Wissen, können aber traditionell nicht den mentalen Sprung machen, vertraute Konzepte zu etwas völlig Neuem und Anderem zu kombinieren. Dank einer neuen neuronalen Netzwerkkomponente namens Symbol-Concept Association Network (SCAN) kann die KI von DeepMind das menschliche Sehen nachahmen, um visuelle Konzepthierarchien zu verstehen.

In seinem neuen Papier mit dem knackigen Namen SCAN:Learning Abstract Hierarchical Compositional Visual Concepts skizziert das DeepMind-Team, wie es ihm gelungen ist, menschenähnliche Denkprozesse in einem KI-Gehirn zu replizieren.

Im Wesentlichen denkt DeepMind jetzt daran, seine visuelle Welt wie ein menschliches Kind zu verstehen. Seine Sichtweite ist eingeschränkt und Gegenstände werden in seine Sichtlinie gebracht. Es interpretiert ein Objekt wie einen Apfel, einen Hut oder einen Koffer in Bezug auf seine physikalischen Eigenschaften – Farbe, Form, Größe – und sogar seine Position und Beleuchtung im Raum.

DeepMind kombiniert dies dann mit lexikalischer Bestätigung und Beschreibungen dessen, was es sieht. Wenn es sich also um einen roten Apfel an einer blauen Wand handelt, würden die Forscher der KI sagen, dass sie einen „roten Apfel“ sieht. Blaue Wand.“ Das heißt, die DeepMind-KI schaut sich nicht einfach einen Apfel an und vergleicht ihn mit anderen Apfelbildern, die in einem Bildarchiv gespeichert sind. Es lernt, wie ein Apfel tatsächlich aussieht.

So lernt Google DeepMind wie ein Kind:DeepMind nutzt Videos, um sich selbst etwas über die Welt beizubringen

SCAN kennt jede Komponente und auch das Basisobjekt des Koffers – es versteht, die Objekte voneinander zu unterscheiden. Wenn SCAN daher aufgefordert wird, ein als „Woog“ bekanntes unsinniges Objekt zu produzieren, erstellt es aus den bereits gelernten Informationen, wie ein Woog seiner Meinung nach aussehen sollte. Es ist anscheinend ein grünes Objekt auf einem rosa Boden vor einer gelben Wand.

Google DeepMind hat gelernt zu laufen

DeepMind hat es geschafft, sich selbst das Laufen beizubringen, was KI-Neinsager mit ziemlicher Sicherheit nervös machen wird. Das bedeutet nicht, dass der Supercomputer aufsteht und im DeepMind-Büro herumläuft, aber es bedeutet, dass die KI versteht, wie Gehen funktioniert und die Kunst der Selbstbalance und Motorkontrolle.

Sie denken vielleicht, dass dies im Vergleich zu den verschiedenen Laufrobotern von Boston Dynamic gar nicht so kompliziert ist, aber was DeepMind vorhat, geht weit darüber hinaus.

Anstatt einem Roboter einfach zu sagen, wie er gehen soll, lernt die KI von DeepMind, digitale Gliedmaßen zu verstehen. Es lernt, wie man geht, wie es seine eigene Dynamik und seinen physischen Raum versteht, damit es Aufgaben in komplexen Umgebungen bewältigen kann. Deshalb können Menschen klettern und Hürden laufen, aber auch normal die Straße hinuntergehen – wir sind nicht für einen einzigen Zweck gemacht.

Um einem Roboter das Laufen beizubringen, mussten traditionell Bewegungserfassungsdaten in das System eingespeist werden. Dies ermöglicht es einer KI nicht nur nicht, sich leicht an eine neue Situation anzupassen, es ist auch zeitgemäß. DeepMind hat es geschafft, eine KI darauf zu trainieren, vorwärts zu gehen, ohne umzufallen, und gleichzeitig zu lernen, wie man sich durch verschiedene digitale Landschaften bewegt, die Laufen, Springen, Drehen und Hocken erfordern, um sie zu überwinden.

So lernt Google DeepMind wie ein Kind:DeepMind nutzt Videos, um sich selbst etwas über die Welt beizubringen

Siehe verwandt Elon Musk hält KI für gefährlicher als NordkoreaGoogle DeepMind kann mit den Besten von ihnen in den Hintern stechen

In einem anderen Experiment entdeckte das DeepMind-Team auch, dass die KI sich selbst einen Weg beigebracht hatte, ohne menschliches Zutun auf natürliche Weise zwischen zwei unterschiedlichen Gehstilen zu wechseln.

Sowohl SCAN als auch die erlernte Bewegungsforschung waren völlig separate Projekte bei DeepMind, aber beide weisen auf eine neue Ära der KI-Entwicklung hin. Anstatt eine Maschine einfach mit einer Menge Informationen zu füttern, die sie analysieren kann, lernt sie die Welt um sie herum auf die gleiche Weise wie der menschliche Verstand.

Verständlicherweise ist das ein ziemlich beängstigender Gedanke und einer der Gründe, warum Elon Musk mehr Regulierung in der KI-Entwicklung wünscht. Trotzdem gibt es nichts Gruseligeres, als einer KI dabei zuzusehen, wie sie vorgibt, wie ein Mensch zu gehen …

So lernt Google DeepMind wie ein Kind:DeepMind nutzt Videos, um sich selbst etwas über die Welt beizubringen