Apple-Forscher haben ein neues Modell veröffentlicht, mit dem Benutzer in einfacher Sprache beschreiben können, was sie an einem Foto ändern möchten, ohne jemals eine Fotobearbeitungssoftware zu berühren.

Das MGIE-Modell, an dem Apple mit der University of California in Santa Barbara zusammengearbeitet hat, kann Bilder zuschneiden, in der Größe ändern, spiegeln und Filter hinzufügen – alles über Texteingabeaufforderungen.

MGIE, das für MLLM-Guided Image Editing steht, kann auf einfache und komplexere Bildbearbeitungsaufgaben angewendet werden, wie etwa das Modifizieren bestimmter Objekte in einem Foto, um ihnen eine andere Form zu geben oder sie heller erscheinen zu lassen. Das Modell vereint zwei unterschiedliche Verwendungsmöglichkeiten multimodaler Sprachmodelle. Zunächst lernt es, wie Benutzereingaben interpretiert werden. Dann „stellt“ es sich vor, wie die Bearbeitung aussehen würde (die Nachfrage nach einem blaueren Himmel in einem Foto führt beispielsweise dazu, dass die Helligkeit im Himmelsbereich eines Bildes erhöht wird).

Beim Bearbeiten eines Fotos mit MGIE müssen Benutzer lediglich eingeben, was sie am Bild ändern möchten. Das Papier verwendete das Beispiel der Bearbeitung eines Bildes einer Peperoni-Pizza. Durch Eingabe der Aufforderung „Machen Sie es gesünder“ werden Gemüsebeilagen hinzugefügt. Ein Foto von Tigern in der Sahara sieht dunkel aus, aber nachdem man dem Modell gesagt hat, es solle „mehr Kontrast hinzufügen, um mehr Licht zu simulieren“, erscheint das Bild heller.

Screenshot des MGIE-Papiers.
Bild: Apple

„Anstelle einer kurzen, aber mehrdeutigen Anleitung leitet MGIE eine explizite visuelle Absicht ab und führt zu einer sinnvollen Bildbearbeitung. Wir führen umfangreiche Studien zu verschiedenen Bearbeitungsaspekten durch und zeigen, dass unser MGIE die Leistung effektiv verbessert und gleichzeitig die Wettbewerbsfähigkeit aufrechterhält. Wir glauben auch, dass der MLLM-gesteuerte Rahmen zur zukünftigen Vision- und Sprachforschung beitragen kann“, sagten die Forscher in dem Papier.

Berichten zufolge stellte Apple MGIE über GitHub zum Download zur Verfügung, veröffentlichte aber auch eine Webdemo zu Hugging Face Spaces VentureBeat. Das Unternehmen hat nicht gesagt, welche Pläne es für das Modell jenseits der Forschung hat.

Einige Bilderzeugungsplattformen, wie DALL-E 3 von OpenAI, können einfache Fotobearbeitungsaufgaben an Bildern durchführen, die sie durch Texteingaben erstellen. Der Photoshop-Ersteller Adobe, an den sich die meisten Menschen für die Bildbearbeitung wenden, verfügt ebenfalls über ein eigenes KI-Bearbeitungsmodell. Sein Firefly-KI-Modell unterstützt die generative Füllung, die generierte Hintergründe zu Fotos hinzufügt.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *