Die wichtigsten KI-Updates im Überblick – KW 20 / Mai 2025
Diese Woche war für KI-Fans ein echtes Feuerwerk an Innovationen. Zwischen neuen Bild- und Videogeneratoren, textbasierten Design-Tools und autonomen Lernmodellen tut sich enorm viel. Hier findest du die spannendsten Entwicklungen – kompakt zusammengefasst.
HunyuanImage 2.0 – Tencent greift Photoshop an
Tencent hat mit HunyuanImage 2.0 ein starkes Zeichen gesetzt. Das Tool bietet Echtzeit-Bildbearbeitung per Texteingabe und Pinselwerkzeug. Ob Sonnenbrillen ergänzen oder ganze Objekte wie ein Lenkrad entfernen – die Bearbeitung wirkt flüssig und präzise. Hunyuan könnte zur echten Konkurrenz für Photoshop avancieren, vor allem im asiatischen Raum.
Manus: Superagent mit Bildgenerierung
Das Agentenmodell Manus hat nun eine integrierte Bildgenerierung. Besonders spannend: Die automatische Erstellung von Präsentationsfolien zu komplexen Themen wie ETFs – inklusive Platzhalter für erklärende Grafiken. Die Texterstellung ist bereits sehr überzeugend, mit nur kleinen Schwächen bei der Darstellung deutscher Sonderzeichen.
Abacus Deep Agent – Das Multitalent unter den Agenten
Ein weiteres Highlight ist Abacus Deep Agent. Der Superagent kombiniert unterschiedliche Modelle wie ChatGPTs Bildgenerator, Deepseek R1 und weitere. Ziel: ein Multimodal-Agent, der vielseitige Aufgaben in einem Tool vereint. Ein Deep Dive folgt noch diese Woche.
Alibaba bringt Bewegung in die Videowelt: W.A.N.N.
Mit W.A.N.N. und dem neuen Modell One Base zeigt Alibaba eindrucksvoll, wie Videobearbeitung der Zukunft aussehen kann. Die Funktionen reichen von Outpainting über Motion Control bis zu Post-Transfer-Techniken, bei denen Subjekte in Videos ausgetauscht oder bewegt werden können. Besonders spannend: Das Modell kann lokal installiert werden – ideal für Entwickler und Kreative.
Stability AI startet Audio-KI
Stability AI, bekannt durch Stable Diffusion, bringt jetzt auch ein Audiogenerierungsmodell. Geräusche, Effekte und Sounddesigns lassen sich damit erzeugen. Die Weights stehen auf Hugging Face und GitHub zur Verfügung – samt eigener Lizenz.
KlingenAI, Lovard & weitere Tools im Vergleich
- KlingenAI bietet nun eine verbesserte „Remove“-Funktion zur Objektentfernung in Bildern – funktioniert mal mehr, mal weniger zuverlässig.
- Lovard AI positioniert sich als textbasiertes Bildbearbeitungstool ähnlich Photoshop. Erste Tests zeigen viel Potenzial, allerdings noch mit Kinderkrankheiten.
BiteDance & Seed-15 VL: Bilder verstehen, Orte erkennen
Das chinesische Unternehmen BiteDance hat mit Seed-15 VL ein Language-Modell vorgestellt, das Bilder analysieren und z.B. Orte erkennen oder Objekte zählen kann. Der reale Nutzen: Assistenzsysteme für Alltagssituationen wie Kochen oder Objektsuche.
OpenAI mit ChatGPT-4.1 & Codex
OpenAI bringt mit ChatGPT 4.1 eine verbesserte Variante seines Flaggschiff-Modells. Zusätzlich erscheint Codex, ein textbasiertes Softwaremodell für die Programmierassistenz – aktuell jedoch nur im teuren Enterprise-Tarif erhältlich.
Auch spannend: OpenAI hat Windsurf übernommen, das mit SWE1 ein eigenes Sprachmodell für Entwickler mitbringt.
Google mit KI für Licht & Code
Zwei Highlights aus dem Hause Google:
- LightLab – erkennt Lichtquellen in Bildern und erlaubt deren Bearbeitung inklusive realistischer Schatten.
- Alpha Evolve – ein Coding-Agent, der komplexe Algorithmen erzeugen und für Forschungszwecke genutzt werden kann.
Weitere interessante Meldungen im Überblick
- Absolute Zero: Ein KI-Modell, das ohne menschliche Trainingsdaten selbstständig Schach und andere Aufgaben gelernt hat.
- LegoGPT: Erstellt Bauanleitungen auf Basis von Texteingaben wie „klassische Gitarre“.
- 11Labs Soundboard: Erzeugt individuelle Soundeffekte (z.B. Tiergeräusche) auf Knopfdruck.
- Claude AI arbeitet an CloudOne 38 mit verbesserter Logikleistung.
- Microsoft hält 49 % an OpenAI und ist damit zentraler Player in der KI-Coding-Welt.
- Anisora von Bilibili bringt Anime-Videoerstellung auf Open-Source-Niveau.
Fazit: KI marschiert in Riesenschritten
Von visueller Intelligenz über Audiotechnologie bis hin zu autonomen Agenten – die aktuelle Woche zeigt eindrucksvoll, wie rasant sich der KI-Sektor entwickelt. Die Tools werden mächtiger, zugänglicher und vielseitiger. Ob als Kreativer, Entwickler oder einfach Neugieriger: Diese Entwicklungen sollte man im Auge behalten.
Quellen:
https://hunyuan.tencent.com/realtimeImagehttps://manus.im/https://ali-vilab.github.io/VACE-Page/https://modelscope.cn/collections/VACE-8fa5fcfd386e43https://x.com/abacusai/status/1920870400059228271https://stability.ai/news/stability-ai-and-arm-release-stable-audio-open-small-enabling-real-world-deployment-for-on-device-audio-controlhttps://app.klingai.com/https://www.lovart.ai/projectshttps://help.openai.com/en/articles/6825453-chatgpt-release-noteshttps://chatgpt.com/?model=gpt-4-1https://x.com/OpenAI/status/1921998278628901322https://github.com/openai/codexhttps://openai.com/codex/https://windsurf.com/blog/windsurf-wave-9-swe-1https://seed.bytedance.com/zh/tech/seed1_5_vlhttps://huggingface.co/Lightricks/LTX-Video-0.9.7-distilledhttps://nadmag.github.io/LightLab/https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/https://arxiv.org/pdf/2505.03335https://arstechnica.com/ai/2025/05/new-ai-model-generates-buildable-lego-creations-from-text-descriptions/https://x.com/elevenlabsio/status/1923076570672927163https://elevenlabs.io/sound-effects/soundboardhttps://bgr.com/tech/claude-ai-is-about-to-get-new-thinking-powers-that-let-it-go-back-to-reasoning-to-help-you-out/https://www.youtube.com/watch?v=ReGC2GtWFp4https://x.com/aaditsh/status/1922675533139329498/photo/1https://x.com/victormustar/status/1924050783500226782https://huggingface.co/IndexTeam/Index-anisora
Hat dir der Beitrag gefallen? Dann empfehle ihn gerne auf der Plattform deines Vertrauens weiter. Wir lesen uns beim nächsten Mal – bis dahin, bleib real!