ZeldoGiQ KI Wochenrückblick 20.04.2025

Titel: KI-Wochenrückblick: Die spannendsten Entwicklungen in der Videogenerierung & Sprachmodelle (April 2025)

Die letzte Woche war ein wahres Feuerwerk an KI-Neuigkeiten – von Fortschritten in der Videogenerierung über neue Sprachmodelle bis hin zu plattformübergreifenden Tools. Damit du den Überblick behältst, fassen wir die wichtigsten Entwicklungen kompakt und verständlich zusammen.

1. Wan 2.1: First Frame Last Frame jetzt in HD

Das Open-Source-Modell Wan 2.1 von Alibaba ist jetzt auch für HD-Videogenerierung mit 14 Milliarden Parametern verfügbar. Besonders erfreulich: Die neue Version läuft bereits auf Grafikkarten ab 12 GB VRAM und lässt sich bequem über GitHub oder Pinokco installieren. Die beeindruckend flüssigen Transitions zeigen, dass sich das Modell auch bei komplexeren Aufgaben bewährt.

👉 Tipp: Nächste Woche soll ein ausführlicher Deep Dive in das Modell und die neue Benutzeroberfläche folgen.

2. Omnitalker: KI-generiertes Sprechen mit Schauspielqualität

Alibaba hat mit Omnitalker ein Modell vorgestellt, das Menschen nicht nur lippensynchron, sondern mit echter mimischer und gestischer Tiefe sprechen lässt – in mehreren Sprachen. Das erinnert stark an das bekannte Omnihuman, geht aber noch einen Schritt weiter in Richtung echter Schauspielerei. Eine Testseite auf HuggingFace existiert bereits, allerdings ist das Tool derzeit nur auf Chinesisch verfügbar.

3. HunyuannPortrait: Feinsteuerung für Gesicht und Mimik

Ein weiteres Modell aus China: HunyuanPortrait von Tent. Hier steht die präzise Kontrolle von Gesichtsausdruck und Mimik im Fokus. Anders als Omnitaler liegt der Schwerpunkt auf feinfühliger Animation und Schauspielähnlichkeit – ein vielversprechender Schritt für realistische Video-Avatare. Die Open-Source-Version befindet sich derzeit im Review-Prozess auf GitHub.

4. Seaweed von ByteDance: TikToks Angriff auf die Videogenerierung

ByteDance, der Mutterkonzern von TikTok, hat mit Seaweed ein leistungsstarkes Videomodell veröffentlicht. Trainiert auf 1000 H100-GPUs mit 7 Milliarden Parametern, setzt Seaweed stark auf Realismus und ist bereits in der Beta auf Dreamina integriert. Erste Tests zeigen beeindruckende Ergebnisse – auch wenn die Plattform teilweise überlastet ist.

5. FramePack: Next Frame Prediction für lange Videos

Framepack basiert auf dem Hunyuan-Modell und erlaubt die Erstellung von bis zu 2-minütigen Videos durch sequentielle Generierung einzelner Frames. Vorteile:

Läuft auf Mittelklasse-Grafikkarten (z.B. RTX 3060)
Hohe Kontrolle über Verlauf & Inhalt
Geringer Ressourcenbedarf

Allerdings kann es nach ca. 45 Sekunden zu Farbabweichungen kommen – diese lassen sich durch kluge Prompt-Gestaltung minimieren.

6. Singende Portraits dank audiovisueller Diffusion

Ein neues Modell ermöglicht es, Portraitbilder zum Singen zu bringen – mit realistischer Mimik und emotionaler Gestik. Besonders bei gezeichneten oder stilisierten Charakteren erzeugt das System beeindruckend natürliche Ergebnisse. Die Technik basiert auf maskierter selektiver Zustandsraummodellierung – ein sperriger Name für ein erstaunlich flüssiges Ergebnis.

7. Kling AI: Das aktuell beste Videomodell auf dem Markt

Kling AI hat mit seinem neuen Modell die Messlatte hoch gelegt:

Beeindruckende Umsetzungsgeschwindigkeit
100 Credits für 5 Sekunden Video
Neue Funktion: Mix Elements – erlaubt den Austausch ganzer Charaktere in Videos

Damit lassen sich Hollywood-artige Szenarien mit personalisierten Avataren realisieren – ein deutlicher Schritt Richtung kreativer Selbstverwirklichung durch KI.

8. MidJourney mit „Layer“-Funktion

Auch im Bereich Bildgenerierung tut sich etwas: MidJourney erlaubt jetzt die Bearbeitung einzelner Bildebenen (Layer). So kann die Position von Objekten nachträglich verändert werden – ein Feature, das besonders bei komplexen Szenen neue kreative Möglichkeiten eröffnet.

9. Sprachmodell-News: OpenAI, Claude, Google & Grok

Die Woche war auch im Bereich Sprach-KI vollgepackt:

OpenAI

Neues Modell „GPT-4.1“ wird standardmäßig in ChatGPT integriert.
O3 & O4 Mini erlauben effiziente Bildanalyse und visuelle Reasoning-Aufgaben.
Gerüchte über ein eigenes soziales Netzwerk und eine mögliche Übernahme von Windsurf (KI-gestützte Entwickler-Plattform).
Neue Library-Funktion: Alle generierten Bilder in ChatGPT sind nun an einem Ort abrufbar.

Claude (Anthropic)

Einführung von „Research“ – eine Funktion zur tiefgreifenden Themenrecherche mit Webanbindung.

Grok (xAI / Elon Musk)

Neues Grok 3 Mini: Leistungsfähiges Modell mit hoher Kosteneffizienz.
Einführung von „Grok Studio“, das Ergebnisse direkt im Interface visualisiert.
Verbesserte Chat-History-Funktion zur Kontexterhaltung vergangener Gespräche.

Google

Veo: Neues Video-KI-Modell, zunächst nur für US-User verfügbar.
Gemini Flash: API-kompatibles Sprachmodell mit optionalem Reasoning.
Gemma: Lokale Nutzung nun auch auf Consumer-GPUs (z.B. RTX 3090) möglich.

Fazit: KI-Woche mit Rekordtempo

Ob Videogenerierung, Sprach-KI oder neue Tools – die vergangenen Tage haben eindrucksvoll gezeigt, wie schnell sich das Feld der generativen KI weiterentwickelt. Besonders spannend bleibt die Integration in bestehende Plattformen wie TikTok, Google und MidJourney – und die zunehmende Demokratisierung durch lokal nutzbare Modelle.

Quellen:

Hier ist eine Liste mit Bulletpoints für deinen WordPress-Blog, formatiert und kopierbereit:

• OmniTalker: Neues KI-Tool zur Videoerstellung mit realistischer Sprachsynchronisierung (https://humanaigc.github.io/omnitalker/)

• OmniTalker Demo auf Hugging Face verfügbar (https://huggingface.co/spaces/Mrwrichard/OmniTalker)

• Hunyuan Portrait: Tencents neue KI-Technologie zur Porträterstellung (https://kkakkkka.github.io/HunyuanPortrait/)

• GitHub-Repository für Hunyuan Portrait jetzt öffentlich (https://github.com/kkakkkka/HunyuanPortrait)

• Seaweed: Neue Videogenerierungstechnologie mit verbesserten Übergängen und Bildqualität (https://seaweed.video/)

• CapCut’s DreamIna stellt neues Video-Generierungstool vor (https://dreamina.capcut.com/ai-tool/video/generate)

• Frame Pack: Innovativer Ansatz für KI-Videoerstellung (https://lllyasviel.github.io/frame_pack_gitpage/)

• Kling AI 2.0 gelauncht: Multimodale Video- und Bildbearbeitungsfunktionen für über 22 Millionen Nutzer (https://app.klingai.com/global/text-to-image/new?ra=4)

• ACTalker: Fortschrittliche Audio-zu-Video-Synchronisationstechnologie (https://harlanhong.github.io/publications/actalker/index.html)

• Midjourney: Neue Updates und Features für KI-Bildgenerierung (https://x.com/midjourney)

• Zeldo’s Image & Video Prompt Maker: Neues ChatGPT-Plugin (https://chatgpt.com/g/g-IWYa84Oyt-zeldo-s-image-video-prompt-maker/)

• OpenAI stellt neue KI-Modelle O3 und O4 Mini vor (https://openai.com/index/introducing-o3-and-o4-mini/)

• GPT-4.1: OpenAIs neuestes Sprachmodell-Update jetzt verfügbar (https://openai.com/index/gpt-4-1/)

• Ollama veröffentlicht neue Tools für lokales KI-Deployment (https://x.com/ollama/status/1910728086649545111)

• OpenAI entwickelt offenbar eine X-ähnliche Social-Media-Plattform (https://www.reuters.com/technology/artificial-intelligence/openai-is-working-x-like-social-media-platform-verge-reports-2025-04-15/)

• OpenAI in Verhandlungen über den Kauf von Windsurf für ca. 3 Milliarden Dollar (https://www.bloomberg.com/news/articles/2025-04-16/openai-said-to-be-in-talks-to-buy-windsurf-for-about-3-billion)

• Google Veo 2: Videogenerierung jetzt allgemein verfügbar (https://developers.googleblog.com/en/veo-2-video-generation-now-generally-available/)

• Gemini 2.5 Flash: Google stellt neue KI-Entwicklertools vor (https://developers.googleblog.com/en/start-building-with-gemini-25-flash/)

• Google DeepMind präsentiert neue KI-Forschungsergebnisse (https://x.com/GoogleDeepMind/status/1910308175326195970)

• xAI kündigt neue KI-Funktionen an (https://x.com/xai/status/1913308977477353582)

• Grok veröffentlicht Updates für verbesserte Nutzererfahrung (https://x.com/grok/status/1912318583532872166)

Hat dir der Beitrag gefallen dann empfehle ihn gerne auf der Plattform deines Vertrauens weiter. Wir lesen uns beim nächsten Mal, bis dahin, bleib real!

KI News

Vorheriger Beitrag

OpenAI o3 & o4-mini: Was die neuen Reasoning-Modelle wirklich leisten

Nächster Beitrag

Wenn KI zu viel denkt: Warum moderne Sprachmodelle bei einfachen Fragen übertreiben