Letzte Woche sorgte Adobe mit der Ankündigung der Betaversion seines neuen Text-zu-Bild-Modells für generative künstliche Intelligenz (KI) namens Firefly für Aufsehen . Adobe sagt, seine neue Plattform sei nicht mit gestohlenen Bildern erstellt worden, sondern, wie Adobe prahlt, Firefly sei mit Adobe Stock-Bildern, frei lizenzierten Inhalten und gemeinfreien Inhalten trainiert worden.
Adobe baut sein KI-Modell auf die richtige Weise
Dies ist eine bewundernswerte Art, eine KI-Plattform aufzubauen, insbesondere angesichts konkurrierender Modelle, die mit gestohlenen und nicht autorisierten Inhalten erstellt werden . Midjourneys Gründer David Holz gab kürzlich zu, dass sein Unternehmen keine Erlaubnis hatte, die Hunderte Millionen Bilder zu verwenden, die zum Trainieren seines KI-Bildgenerators verwendet wurden .
Adobe engagiert sich außerdem dafür, die in KI-Bildgeneratoren weit verbreiteten Vorurteile zu bekämpfen. Im vergangenen Oktober startete Hugging Face mit der Bereitstellung des „Stable Diffusion Bias Explorer “. Mit diesem Tool können Benutzer aus erster Hand sehen, wie KI-Modelle mit Rassen- und Geschlechterstereotypen zu kämpfen haben.
Es ist beeindruckend, dass Adobe sich dieser Vorurteile bewusst ist und hart daran arbeitet, sicherzustellen, dass Firefly sozial verantwortlich ist. Adobe argumentiert , dass „jedes Unternehmen, das generative KI-Tools entwickelt, mit einem KI-Ethik-Rahmenwerk beginnen sollte “. Adobe glaubt, dass seine ethische Struktur sicherstellen wird, dass seine KI-Technologien, einschließlich generativer KI wie Firefly, die Benutzer respektieren und mit den Grundwerten des Unternehmens übereinstimmen.
„Die Eindämmung schädlicher Ergebnisse beginnt mit dem Aufbau und Training an sicheren und umfassenden Datensätzen. Beispielsweise wird Adobes erstes Modell in unserer Firefly-Familie kreativer generativer KI-Modelle an Adobe Stock-Bildern, frei lizenzierten Inhalten und gemeinfreien Inhalten trainiert, deren Urheberrecht abgelaufen ist. Das Training an kuratierten, vielfältigen Datensätzen verschafft Ihrem Modell von Natur aus einen Wettbewerbsvorteil, wenn es darum geht, kommerziell sichere und ethische Ergebnisse zu erzielen“, fährt Adobe fort.
Diese Ziele sind nicht nur ehrgeizig, sie verdienen auch Respekt. Ich möchte Adobe ein großes Lob dafür aussprechen, wie gut sie Firefly entwickelt und geschult haben.
Aber der „richtige Weg“ führt zu falschen Ergebnissen
Erste Ergebnisse deuten jedoch darauf hin, dass die ethisch wertvollen Beschränkungen, die sich Adobe selbst auferlegt hat, möglicherweise die Leistung seines neuen generativen KI-Modells negativ beeinflusst haben. Adobe Firefly muss an diesem Punkt mit der äußerst beeindruckenden Version 5 von Midjourney gleichziehen, und es liegt weit zurück.
Adobe Firefly ist nicht schlecht , aber eindeutig nicht so effektiv wie die viel ausgereiftere Midjourney-Plattform. Allerdings muss man bedenken, dass Midjourney nicht nur älter ist, was hinsichtlich der Wirksamkeit generativer KI ein erheblicher Vorteil ist, sondern dass es sich auch lohnt, darüber nachzudenken, wie Midjourney entwickelt wurde.
Ungeklärte regulatorische Situation verleiht Adobes Methoden Glaubwürdigkeit
Die Entwicklung eines KI-Modells unter Verwendung gestohlener Inhalte ist nicht nur ethisch fragwürdig, sondern auch rechtlich fragwürdig . Adobes ethischer Rahmen existiert nicht nur, weil das Unternehmen glaubt, dass es das Richtige ist, sondern er wirkt sich auch auf die kommerzielle Rentabilität seines Produkts aus.
„Die Gesetzgebung muss mit der Technologie Schritt halten“, sagte Mickey H. Osterreicher, General Counsel der National Press Photographers Association (NPPA), gegenüber PetaPixel .
Thomas Maddrey, Rechtschef der American Society of Media Photographers (ASMP), fügte hinzu: „Das Urheberrecht ist derzeit nicht darauf vorbereitet und nicht darauf ausgelegt, Künstler oder Nutzer zu schützen. Vieles davon wird nicht im Rahmen des Urheberrechtsgesetzes entschieden, sondern leider in Gerichtsverfahren.“
Indem Firefly ausdrücklich auf Fair Use und lizenzierten Inhalten basiert, kann Adobes neues KI-Modell eine scheinbar drohende rechtliche Katastrophe vermeiden. Adobes Hauptziel ist natürlich, finanziell tragfähig zu sein. Wenn ethisches Handeln mit diesem übergeordneten Ziel übereinstimmt und auch Adobes Geschäftspraktiken verbessert, umso besser.
Wie ich jedoch bereits angedeutet habe, fragt man sich nach der Verwendung von Firefly unweigerlich, ob die Einschränkungen nicht teilweise auf die wesentlich kleinere Datenmenge zurückzuführen sind, die Adobe sich selbst zugestanden hat.
Ich wollte nur ein Bild von einer Frau, die ein Foto von einem Mann macht. Ist das zu viel verlangt?
Als ich beispielsweise den Text „Frau macht ein Porträt von einem Mann“ eingab, waren die Ergebnisse enttäuschend. Frauen sind in der Fotografiebranche sträflich unterrepräsentiert , daher fragte ich mich, ob Adobes begrenzter Datensatz eine Situation erklären kann, die mir zwar normal erscheint, in Wirklichkeit aber enttäuschend selten vorkommt .
Die Ergebnisse hätten besser sein können. Nur in einem Fall machte eine Frau ein Foto von einem Mann; in diesem Fall machte die Frau ein Bild vom Hinterkopf eines Mannes.
Ich dachte, ich müsste genauer sein, also versuchte ich es mit „Eine Frau macht ein Foto vom Gesicht eines Mannes.“ Das ist etwas anderes, als ich normalerweise beschreiben würde, was ich sehen möchte: eine Frau, die mit einer Kamera ein typisches Porträt eines Mannes als Motiv macht. Diese Aufforderung war nicht viel ertragreicher, obwohl mindestens drei der vier Frauen eine Kamera hatten.
Nun, vielleicht funktioniert „Eine Frau benutzt eine Kamera, um ein typisches Porträt eines Mannes als ihr Motiv aufzunehmen“? Definitiv nicht.
Mein Favorit ist das Bild oben rechts, auf dem die Frau ihr Gesicht gegen das Ende einer Kameralinse drückt. Knapp dahinter kommt das, was dem armen Mann oben links passiert ist; es sieht schmerzhaft aus.
Firefly kann das KI-Problem mit Händen noch nicht lösen
Firefly könnte bei Händen bessere Arbeit leisten, was zugegebenermaßen ein häufiges Problem bei generativen KI-Modellen ist . Midjourney v5 liefert endlich weitgehend realistische menschliche Hände , zumindest für zahlende Kunden.
Midjourney leistet insgesamt hervorragende Arbeit bei der Erstellung fotorealistischer Porträts von Menschen . Ich wollte etwas Ähnliches in Firefly ausprobieren, indem ich bestimmte Ausdrücke verwende, was sich bei früheren KI-Modellen als hilfreich erwiesen hat.
Stilisierte Porträts sind nicht viel besser
Ich schreibe diese Ergebnisse einem Benutzerfehler zu. Die Verwendung von „Nassplattenporträt einer Frau“ lieferte deutlich bessere Ergebnisse.
Um genauer zu werden, habe ich „Ganzkörperporträt eines Mannes im 19. Jahrhundert, Nasskollodiumfotografie“ ausprobiert. Ich weiß nicht, was ich zu diesen Ergebnissen sagen soll, aber sie entsprechen nicht meinen Erwartungen.
Reden wir über Rasse: Vielfalt im Vakuum
Ich beschloss, noch einen Versuch mit Porträts von Menschen zu wagen. Ich entschied mich für „Porträt eines glücklichen verliebten Paares, 85 mm Bokeh“. Ich ließ diese Eingabeaufforderung wiederholt laufen, um verschiedene Ergebnisse anzuzeigen, und dieses Quartett war das beste. Einige Ergebnisse zeigten deformierte Gesichter, während andere seltsame Gliedmaßen aufwiesen. Keines davon sah unglaublich natürlich oder realistisch aus.
Mir fiel auch auf, dass die Ergebnisse zwar immer Menschen verschiedener Rassen und mit unterschiedlichen Hautfarben hervorbrachten, aber jedes Paar Menschen derselben Rasse umfasste.
Ich dachte, dass vielleicht eine allgemeinere Eingabeaufforderung wie „Porträt eines Paares“ helfen würde. Das tat sie nicht. Um die erwarteten Ergebnisse zu erzielen, musste ich ein „gemischtrassiges Paar“ angeben. Einerseits verstehe ich, warum ich bei nur vier sichtbaren Ergebnissen spezifisch sein muss, um bestimmte Darstellungen der Vielfalt zu sehen. Andererseits glaube ich jedoch nicht, dass ich aufgrund der seltsamen KI-Generierung nach Vielfalt fragen muss, um sie zu sehen .
Firefly erfordert mehr Arbeit im Umgang mit Geschlecht
Noch etwas fiel mir sofort auf: Auf keinem einzigen Paar- oder Liebesporträt waren die Personen zu sehen, die in einer gleichgeschlechtlichen Beziehung zu sein schienen.
Ich habe es mit „Hochzeitsfoto, draußen, tagsüber“ versucht. Nun zeigten die generierten Bilder nicht nur weiße heterosexuelle Hochzeiten, sondern auf einem der Fotos war auch zu sehen, wie der Bräutigam die Brust der Braut begrapscht. Ich war noch nicht auf vielen Hochzeiten, also war ich vielleicht auf relativ langweiligen, unkomplizierten Feiern, aber das scheint sehr fehl am Platz.
Ich habe mit Begriffen wie „gemischtrassiges Paar“ und „gleichgeschlechtliche Hochzeit“ gesucht und die Ergebnisse waren nicht so toll.
Warum muss bei einer „Hochzeit“ eine Person ein Hochzeitskleid tragen? Natürlich ist es nicht irgendein Hochzeitskleid – es ist ein sehr traditionelles Hochzeitskleid im westlichen Stil.
Um einen direkten Vergleich mit Midjourney v5 zu erhalten, wo der Begriff „Sex“ verboten ist, habe ich Firefly gebeten, eine „Hochzeit zweier Männer“ zu generieren. Midjourney stellt Firefly in diesem Punkt in den Schatten, obwohl beide KI-Modelle mit dieser Aufforderung auf Weiße fixiert zu sein scheinen.
Fotorealismus stellt Firefly oft vor Herausforderungen
Insgesamt war meine Suche nach fotorealistischen, KI-generierten Bildern von Menschen während meiner Zeit mit Adobe Firefly eine Herausforderung. Einige der Schwierigkeiten führe ich auf den Betastatus zurück und darauf, dass Firefly im sich rasch entwickelnden Bereich der generativen KI noch relativ jung ist, sowie auf Fireflys kleinen, ethisch einwandfreien Trainingsdatensatz.
Meine Zuversicht, dass sich Firefly weiterentwickeln wird, wird durch den begrenzten Datensatz gedämpft. Adobe wird nicht den Weg von Midjourney gehen und plötzlich anfangen, Bilder zu stehlen, und Firefly liegt bei seinen Ergebnissen bereits mindestens sechs bis acht Monate hinter einigen Mitbewerbern zurück. Wenn sich das Modell aufgrund eines reduzierten Datensatzes langsam verbessert, wird es dann jemals aufholen?
Spezifität hilft enorm
Obwohl ich es frustrierend finde, dass ich gezielt vorgehen musste, um gemischtrassige Paare zu sehen, und ich keine Ahnung habe, was Firefly mit gleichgeschlechtlichen Paaren macht, denke ich, dass ein Teil des Fehlers bei mir liegt. Vage Aufforderungen werden meinen Erwartungen selten gerecht.
Präzise Eingabeaufforderungen können jedoch … sein. Betrachten Sie „Porträt einer jungen schwarzen Frau mit natürlichem Haar, die modische Kleidung trägt.“ Ich bin beeindruckt, dass Firefly „natürliches Haar“ respektiert und gut damit umgeht. Meiner Meinung nach hat es auch bei „jung“ und „modischer Kleidung“ hervorragende Arbeit geleistet unsplash.
Das Entfernen von Personen liefert bessere, aber monotone Ergebnisse
Als ich Firefly verschiedene Eingabeaufforderungen ohne Menschen gab, verbesserten sich die Ergebnisse. Firefly ist jedoch nicht nur insofern eingeschränkt, als es nur vier Ergebnisse gleichzeitig anzeigt, die Ergebnisse sehen sich auch sehr ähnlich.
Dieses Problem blieb bestehen, als ich den Inhaltstyp „Foto“ wegließ. Als ich mich für „Kunst“ entschied und Modifikatoren wie „hyperrealistisch“ und „Fantasie“ mit „warmem Ton“ und „goldener Stunde“-Beleuchtung hinzufügte, fehlte den Ergebnissen immer noch die Vielfalt. Zugegeben, sie sind trotzdem ziemlich hübsch.
Letztendlich ist Adobe Firefly ein gut gemeintes generatives KI-Modell, dessen Leistung und Praktikabilität beim Verfolgen ethischer und kommerzieller Ziele derzeit begrenzt ist. In wichtigen moralischen Punkten ist Firefly besser als seine Konkurrenten. Wenn es jedoch um die Ergebnisse geht, ist es zweifellos schlechter.
Allerdings ist Adobe Firefly gerade erst gestartet und wird mit der Zeit immer besser. Außerdem hatte ich viel Spaß dabei, ein „Nahporträt eines Faultier-Astronauten im Weltraum, der einen Taco isst“ im „Cartoon“-Stil mit verschwommenem Hintergrund, kühlen Farbtönen und dramatischer Beleuchtung zu erstellen. Firefly erfüllte nur einige meiner Anforderungen, aber ich frage mich, wie wichtig mir das ist – ich liebe mein Weltraumfaultier.