Microsofts KI-Zeichenbot: Kreative Skizzen aus Text

Als Experte für Künstliche Intelligenz weiß ich: KI revolutioniert kreative Bereiche. Microsofts neuer Drawing Bot erzeugt detaillierte Zeichnungen pixelgenau aus Textbeschreibungen – ein beeindruckendes Beispiel für fortschrittliche Bildgenerierung.

Der Bot basiert auf einem Generative Adversarial Network (GAN) mit zwei KI-Modellen: Ein Generator erstellt Bilder aus Text, der Diskriminator prüft deren Authentizität anhand von Beschreibungen. Trainiert mit Tausenden Bildern und Untertiteln, versteht die KI Konzepte wie 'Vogel' und reproduziert sie überzeugend.

„Wenn Sie zu Bing gehen und nach einem Vogel suchen, erhalten Sie ein Vogelbild. Aber hier werden die Bilder vom Computer Pixel für Pixel von Grund auf neu erstellt“, erklärt Xiaodong He, leitender Forscher im Deep Learning Technology Center von Microsoft Research in Redmond. „Diese Vögel existieren möglicherweise nicht in der realen Welt, sie sind nur ein Aspekt der Vogelvorstellung unseres Computers.“

Interessant: Die KI ergänzt Beschreibungen autonom, z. B. indem sie Vögel auf Äste setzt – inspiriert von Trainingsdaten, die typische Darstellungen widerspiegeln.

Trotz Stärken zeigt der Bot Grenzen: Ergebnisse wirken avantgardistisch, etwa Vögel mit blauen Schnäbeln oder mutierte Fruchtstände. Bei komplexen Anweisungen wie 'Vogel mit grüner Krone, gelben Flügeln und rotem Bauch' mischt die KI Farben kreativ, aber ungenau. Alle Zeichnungen teilen einen einheitlichen Stil – selbst absurde Szenen wie ein roter, schwimmender Bus.

Diese Technologie baut auf Microsofts KI-Erfahrungen auf, wie der Seeing-AI-App für Sehbehinderte, die Objekte beschreibt, Gesichter erkennt und Dokumente liest. Ähnlich beschreibt Facebook KI-Fotos für Nutzer mit Behinderung. Google integriert KI in Arts & Culture, z. B. zur Abgleichung mit Kunstwerken, ergänzt durch Appsperiments für bessere Fotos.

Microsofts KI-Zeichenbot: Kreative Skizzen aus Text – ein digitaler Salvador Dalí?