Modelle

GPT-4o

GPT-4o ('o' für omni) ist das Flaggschiff-Modell von OpenAI, das nativ multimodal ist. Das bedeutet, es wurde von Grund auf trainiert, um Text, Audio und Bilder gleichzeitig zu verstehen und zu generieren. Dies ermöglicht extrem schnelle Reaktionszeiten in Sprachkonversationen (ähnlich menschlicher Reaktionszeit) und ein tiefes Verständnis von emotionalen Stimmlagen und visuellen Details.

OpenAI Realtime