ChatGPT-4o: Der menschliche Sprachassistent von OpenAI

Mit der Einführung von ChatGPT 4o hat OpenAI die Messlatte für KI-Sprachmodelle erneut höher gelegt. Die neue Version bietet nicht nur technische Verbesserungen, sondern auch innovative Funktionen, die die Art und Weise, wie wir mit Maschinen interagieren, grundlegend verändern könnten. Aber was genau ist ChatGPT 4o, was bedeutet das „o“, wieso fühlt sich der neue Chatbot so menschlich an und wie unterscheidet dieser sich von seinen Vorgängern?

31. Mai 2024

Quelle: NExperts

KI war noch nie so menschlich

Faszinierend und ein wenig beängstigend zugleich ist die Tatsache, dass der neue Chatbot von OpenAI fast wie ein echter Mensch kommuniziert. Das Sprachmodell spricht mit bisher unerreichten menschlichen Nuancen in der Stimme, lässt Unterbrechungen zu und hört aufmerksam zu. Das war bisher auch möglich – aber nur auf Knopfdruck. Wenn die KI uns jetzt zum Beispiel etwas auflistet und uns ein Punkt besonders interessiert, können wir sprachlich eingreifen und ihr zum Beispiel sagen, dass sie genau zu diesem Punkt mehr sagen soll.

Was aus unserer Sicht aber vor allem für ein natürlicheres Gesprächserlebnis sorgt, ist die menschliche Reaktionszeit. So kann GPT-4o in nur 232 Millisekunden auf Audioeingaben reagieren. Das ist fast so schnell wie ein Mensch. Zum Vergleich: Bei Gesprächen mit GPT-3.5 lag die durchschnittliche Ladezeit bei 2,8 Sekunden, bei GPT-4 bei 5,4 Sekunden. Genau hier liegt der Flaschenhals für Sprachassistenten. Wenn die Reaktionszeit zu lang ist, kann man es selbst schneller machen, als eine KI zu fragen. Außerdem wirken diese Pause künstlich. Man spürt, dass die Maschine arbeitet. Es fühlt sich nicht wie eine spontane Antwort an. ChatGPT-4o könnte nun ein Gamechanger für Sprachassistenten sein, zum Beispiel auch bei Telefonaten oder in Call-Centern, wenn man den Gedanken weiterspinnt.

Neben der menschlichen Reaktionszeit erkennt der OpenAI Sprachassistent auch Emotionen wie Aufregung, Frustration oder Trauer. Ein Beispiel: Wenn ein Benutzer Anzeichen von Frustration zeigt, kann ChatGPT-4o beruhigende und unterstützende Antworten geben, um die Situation zu entschärfen. Es versteht sogar Metaphern, Ironie, Humor – und sogar Komplimente. So antwortete das Sprachmodell während der OpenAI-Produktpräsentation auf die Aussage „nützlich und erstaunlich“ mit „Oh, hör auf, ich werde ganz rot“.

Das neue GPT-Modell reagiert aber nicht nur auf Sprache, sondern auch auf visuelle Reize. Probiere es selbst aus und halte ein lächelndes Gesicht in die Kamera deines Smartphones. In einem Test fragte die KI in Echtzeit: „Möchtest du den Grund für deine gute Laune mitteilen?“ OpenAI scheint sich intensiv mit der Frage auseinandergesetzt zu haben, was Interaktionen menschlich macht. Das sorgt für ein immersives Erlebnis, insbesondere weil der Chatbot in der Lage ist, sich Kontexte über längere Gespräche hinweg zu merken, während frühere Modelle oft Schwierigkeiten hatten, sich an frühere Teile eines Gesprächs zu erinnern, kann ChatGPT 4o den Gesprächsverlauf detailliert nachverfolgen. Kurzgesagt: ChatGPT-4o hat ein Gedächtnis, das fast menschlich anmutet.

Sam Altmann, Mitbegründer und CEO von OpenAI, schreibt dazu in einem Blog: „Mit einem Computer zu sprechen hat sich für mich nie wirklich natürlich angefühlt. Mit (optionaler) Personalisierung, Zugriff auf Ihre Informationen, der Möglichkeit, in Ihrem Namen zu handeln und vielem mehr, sehe ich eine aufregende Zukunft, in der wir Computer für viel mehr Dinge nutzen können als je zuvor“.

ChatGPT-4o vs. ChatGPT-4: Die Highlights auf einen Blick

ChatGPT 4o ist die neueste Version des beliebten KI-Sprachmodells von OpenAI. Das „o“ in 4o steht für „omni“, also Omnimodell, was auf die Vielseitigkeit und die umfassenden Anwendungsmöglichkeiten hinweist. Es wurde entwickelt, um in verschiedenen Kontexten noch besser und effizienter zu funktionieren – sei es in alltäglichen Gesprächen, in spezialisierten professionellen Anwendungen oder in kreativen Projekten. Doch was genau unterscheidet das neue Sprachmodell von seinem Vorgänger bzw. macht es leistungsfähiger?

Kostenfreier Zugang: Überraschend war für viele die Ankündigung, dass GPT-4o auch für nicht zahlende Nutzer^*innen zur Verfügung stehen wird. Bisher hatte OpenAI viele Zusatzfunktionen nur für zahlende Abonnent^*innen angeboten, wie z.B. Internetrecherche, Datenanalyse, Upload von Fotos und Erstellung eigener GPTs. Warum lohnt es sich für manche, das kostenpflichtige OpenAI-Abonnement beizubehalten? Plus-Nutzer haben in der neuen Version ein bis zu fünffach höheres Nachrichtenlimit, also aktuell 80 statt 16 Prompts zur Verfügung.
Highspeed: Wie bereits erwähnt, liefert das neue Modell ultraschnelle und präzise Antworten. Während GPT-4 noch eine Antwortzeit von 5,4 Sekunden hatte, schafft GPT-4o dies nun in beeindruckenden 232 Millisekunden – also fast in Echtzeit!
Verbesserte Sprachfunktionen & Übersetzungen: Die Sprachfunktionen klingen jetzt extrem menschlich und bringen Emotionen ins Gespräch. Insbesondere die Übersetzungen sind jetzt nahtlos. Das Modell kann schnell zwischen verschiedenen Sprachen wechseln und übersetzen. Diese Fortschritte positionieren ChatGPT längst als ernstzunehmende Konkurrenz für etablierte Sprachassistenten wie Alexa und Siri.
Visuelle Eingaben: Live-Interaktion mit visuellem Input – von Fotos bis hin zu Videos – alles wird in Echtzeit verarbeitet. Ein Beispiel: Zeige der KI ein Bild deines aktuellen Projekts und erhalte sofort Analysen oder Verbesserungsvorschläge.
Fortgeschrittenes Datenanalyse-Tool: Analysiere und interpretiere Daten, jetzt auch in der kostenlosen Version. Ein Gamechanger für die tägliche Arbeit. Lade zum Beispiel eine Excel-Datei hoch und lasse dir Trends und Muster anzeigen, ohne die Daten manuell durchsuchen zu müssen.
Bild- und 3D-Modellerstellung: Beeindruckende 2D-Bilder und 3D-Modelle mit Leichtigkeit erstellen. Insbesondere die Bearbeitung von Text auf Bildern wurde erheblich verbessert. Zum Beispiel: Ein 3D-Modell des Produktdesigns erzeugen oder Werbebanner mit optimal platziertem Text erstellen.
Desktop-App: Die neue Desktop-App für Mac-User ermöglicht die nahtlose Zusammenarbeit mit der KI. Eine Windows-Version folgt in Kürze. Hinweis: Die MacOS-App wird zunächst nur für ChatGPT Plus-Abonnenten zur Verfügung stehen. In den nächsten Wochen möchte OpenAI die App weiter öffnen.
API-Zugang: Entwickeln Sie Ihre eigenen Produkte mit der neuen, kostengünstigen API von GPT-4o, die viel schneller und zudem 50 Prozent günstiger als ChatGPT-4 Turbo ist.

OpenAI, Google und Anthropic – wer gewinnt das Rennen?

Der Zeitpunkt der Präsentation von OpenAI ist interessant, da die Enthüllung kurz vor Googles jährlicher Entwicklerkonferenz stattfand, wo ähnliche technologische Fortschritte erwartet wurden. Google hat bereits vor einigen Monaten gezeigt, wie seine KI-Software Gemini gesprochene und visuelle Informationen verarbeiten kann. Das neue ChatGPT-4o scheint jedoch ein neues Level in diesem Bereich erreicht zu haben und steht damit wieder im Zentrum des anhaltenden KI-Hypes. ChatGPT-4o zeigt das Potenzial dieser Technologien, die Art und Weise, wie wir mit digitalen Assistenten interagieren, zu revolutionieren.

Aber OpenAI ist nicht allein im Rennen. Wenige Stunden nach der OpenAI-Präsentation kündigte auch die Firma Anthropic an, ihren leistungsstarken Chatbot Claude nach Europa zu bringen. Ähnlich wie das bisherige ChatGPT kann Claude dank KI unter anderem Sätze wie ein Mensch formulieren und den Inhalt von Texten zusammenfassen. Es bleibt spannend zu beobachten, wer von den Tech-Giganten langfristig als Sieger und Gamechanger hervorgehen wird.

Alle NEXt Insights im Überblick