OpenAI hat angekündigt, in den nächsten Wochen erweiterte Funktionen für ChatGPT bereitzustellen. Mit den neuen Features, Voice und Image Conversations, können Geschäftskunden nun auf eine noch realistischere KI-Interaktion zugreifen.

Was bringt die Erweiterung?

Dank dieser Neuerungen können Nutzer von ChatGPT nicht nur Textkonversationen führen, sondern auch über Sprachbefehle mit der KI kommunizieren und durch das Hochladen von Bildern spezifische Anfragen stellen. Beispielsweise könnte ChatGPT Geschäftsgrafiken analysieren, Rezepte basierend auf den Zutaten eines Bildes vorschlagen oder sogar Berichte und Analysen vorlesen.

Verfügbarkeit und Zugang

Die neuen Funktionen werden sowohl für iOS- als auch für Android-Nutzer verfügbar sein, allerdings vorerst nur für die Abonnements ChatGPT Plus und ChatGPT Enterprise. Diese Erweiterungen transformieren ChatGPT in ein leistungsstarkes Business-Tool mit umfangreichem Wissen und Fachkompetenz. Ob es darum geht, ein Produkt, ein Gebäude oder eine Pflanze auf einem Foto zu identifizieren oder komplexe geschäftliche Fragen zu beantworten, ChatGPT steht bereit.

Voice Conversations: Ein Schritt in Richtung realistische KI-Kommunikation

In der mobilen Anwendung können Nutzer über den Bereich „neue Features“ auf die Voice Conversations zugreifen. Sie haben die Möglichkeit, aus fünf verschiedenen Stimmen auszuwählen, die ChatGPT repräsentieren. Die Sprachausgabe basiert auf einem fortschrittlichen Text-to-Speech-Modell, das Text in menschenähnliche Audiodateien umwandelt. Zudem wird das Whisper-System verwendet, um gesprochene Wörter in Text zu konvertieren.

Image Conversations: Visuelle Interaktion mit der KI

Mit den Image Conversations können Nutzer durch das Hochladen von Fotos oder Grafiken eine Konversation mit der KI beginnen. Dies ist besonders nützlich, wenn Sie unter anderem eine Geschäftsgrafik analysieren oder ein bestimmtes Werkzeug auf einem Bild identifizieren möchten. In der Anwendung können Nutzer über ein Foto-Icon zu den Image Conversations navigieren. OpenAI hat dazu einen Post auf „X“ veröffentlicht. Sehen Sie selbst:

Technologie und Weiterentwicklung

Die Antworten von ChatGPT basieren auf den Modellen GPT-3.5 und GPT-4 und nutzen eine Vielzahl von visuellen Daten, einschließlich Fotos und Grafiken. OpenAI plant, die ChatGPT-Konversationsfunktionen kontinuierlich zu verbessern und in Zukunft weitere Ressourcen bereitzustellen.

Zuletzt nutzte Spotify die KI-Sprachfähigkeiten von OpenAI, um ein Voice Translation Tool zu entwickeln, das Podcastern ermöglicht, ihre Episoden mithilfe von KI in andere Sprachen zu übersetzen. Nach der Einführung von DALL-E 3 sind die Image- und Voice Conversations die neuesten großen Erweiterungen von OpenAI. Weitere KI-Innovationen werden auf dem OpenAI DevDay, der ersten Entwicklerkonferenz des Unternehmens, im November vorgestellt.