Eigenschaft

Multimodal

Multimodalität ist der nächste große Entwicklungsschritt in der KI. Die erste Generation generativer KI war meist unimodal: Text-zu-Text (ChatGPT-3), Text-zu-Bild (Midjourney) usw. Ein multimodales Modell (wie GPT-4o oder Gemini 1.5) kann jedoch nativ verschiedene Datentypen ('Modalitäten') gleichzeitig verarbeiten und verstehen: Es kann Text lesen, Bilder sehen, Audio hören und Video verstehen.

Dies erlaubt völlig neue Anwendungen: Man kann der KI ein Foto des Kühlschranks zeigen und fragen 'Was kann ich kochen?', wobei sie die Zutaten visuell erkennt. Oder man filmt eine Matheaufgabe, und die KI erklärt die Lösung Schritt für Schritt per Sprache. Multimodale Modelle kommen der menschlichen Wahrnehmung, die alle Sinne verknüpft, deutlich näher.

Advanced Versatile