AI & Data Science Blog

Autor: Matthias Steube

ChatGPT Evolution: OpenAI revolutioniert KI-Interaktion mit Voice und Image 

OpenAI hat angekündigt, in den nächsten Wochen erweiterte Funktionen für ChatGPT bereitzustellen. Mit den neuen Features, Voice und Image Conversations, können Geschäftskunden nun auf eine noch realistischere KI-Interaktion zugreifen.

Was bringt die Erweiterung?

Dank dieser Neuerungen können Nutzer von ChatGPT nicht nur Textkonversationen führen, sondern auch über Sprachbefehle mit der KI kommunizieren und durch das Hochladen von Bildern spezifische Anfragen stellen. Beispielsweise könnte ChatGPT Geschäftsgrafiken analysieren, Rezepte basierend auf den Zutaten eines Bildes vorschlagen oder sogar Berichte und Analysen vorlesen.

Verfügbarkeit und Zugang

Die neuen Funktionen werden sowohl für iOS- als auch für Android-Nutzer verfügbar sein, allerdings vorerst nur für die Abonnements ChatGPT Plus und ChatGPT Enterprise. Diese Erweiterungen transformieren ChatGPT in ein leistungsstarkes Business-Tool mit umfangreichem Wissen und Fachkompetenz. Ob es darum geht, ein Produkt, ein Gebäude oder eine Pflanze auf einem Foto zu identifizieren oder komplexe geschäftliche Fragen zu beantworten, ChatGPT steht bereit.

Voice Conversations: Ein Schritt in Richtung realistische KI-Kommunikation

In der mobilen Anwendung können Nutzer über den Bereich „neue Features“ auf die Voice Conversations zugreifen. Sie haben die Möglichkeit, aus fünf verschiedenen Stimmen auszuwählen, die ChatGPT repräsentieren. Die Sprachausgabe basiert auf einem fortschrittlichen Text-to-Speech-Modell, das Text in menschenähnliche Audiodateien umwandelt. Zudem wird das Whisper-System verwendet, um gesprochene Wörter in Text zu konvertieren.

Image Conversations: Visuelle Interaktion mit der KI

Mit den Image Conversations können Nutzer durch das Hochladen von Fotos oder Grafiken eine Konversation mit der KI beginnen. Dies ist besonders nützlich, wenn Sie unter anderem eine Geschäftsgrafik analysieren oder ein bestimmtes Werkzeug auf einem Bild identifizieren möchten. In der Anwendung können Nutzer über ein Foto-Icon zu den Image Conversations navigieren. OpenAI hat dazu einen Post auf „X“ veröffentlicht. Sehen Sie selbst:

Technologie und Weiterentwicklung

Die Antworten von ChatGPT basieren auf den Modellen GPT-3.5 und GPT-4 und nutzen eine Vielzahl von visuellen Daten, einschließlich Fotos und Grafiken. OpenAI plant, die ChatGPT-Konversationsfunktionen kontinuierlich zu verbessern und in Zukunft weitere Ressourcen bereitzustellen.

Zuletzt nutzte Spotify die KI-Sprachfähigkeiten von OpenAI, um ein Voice Translation Tool zu entwickeln, das Podcastern ermöglicht, ihre Episoden mithilfe von KI in andere Sprachen zu übersetzen. Nach der Einführung von DALL-E 3 sind die Image- und Voice Conversations die neuesten großen Erweiterungen von OpenAI. Weitere KI-Innovationen werden auf dem OpenAI DevDay, der ersten Entwicklerkonferenz des Unternehmens, im November vorgestellt.

Warum ein tiefergehendes Verständnis von LLMs wichtig ist

Die Prozesse des maschinellen Lernens sind von empirischer Natur. Es gestaltet sich schwierig, das Ergebnis einer Hyperparameterauswahl, eines Datensatzes oder einer Eingabeaufforderung für ein großes Sprachmodell (LLM) im Vorfeld zu erahnen. Der Weg zum Ziel führt hier über Versuch und Irrtum, um schließlich eine Entscheidung für den nächsten Schritt zu treffen. Dennoch ist es von großer Bedeutung, die zugrunde liegende Technologie zu verstehen, um vielversprechende Ansätze zu verfolgen. Welche Maßnahme ist beispielsweise bei der Aufforderung zu einem LLM am effektivsten?

Eingabeaufforderung 1:
Algorithmus 1 benötigt N * (N-1) * (N-2) * (N-3) Sekunden. Algorithmus 2 benötigt (N-1) * (N-2) *(N-3) * 2 * 1 Sekunden für die Ausführung. Wenn N=6, welcher Algorithmus ist schneller. Gib die Antwort, dann begründe sie.

Eingabeaufforderung 2:
Algorithmus 1 benötigt N * (N-1) * (N-2) * (N-3) Sekunden. Algorithmus 2 benötigt (N-1) * (N-2) *(N-3) * 2 * 1 Sekunden für die Ausführung. Wenn N=6, welcher Algorithmus ist schneller. Gib zunächst eine Begründung an und dann die Antwort.

Beide Eingabeaufforderungen ähneln sich stark, wobei die erste Aufforderung dem Wortlaut von zahlreichen Mathematikprüfungen aus der Schulzeit entspricht. Im Gegensatz dazu ist die zweite Aufforderung Erfolg versprechender, wenn es darum geht, von einem LLM eine qualitativ hochwertige Antwort zu erhalten.

Begründung:
Ein LLM arbeitet mit dem wiederholten Erraten des wahrscheinlichsten nächsten Wortes oder Tokens, um eine Ausgabe zu generieren. Fragt man zunächst nach der Antwort, versucht das LLM zunächst zu raten und begründet dann seine potenziell falsche Annahme. Im Kontrast dazu verlangt Eingabeaufforderung 2 eine gründliche Überlegung, bevor eine Schlussfolgerung gezogen wird. Dieses Prinzip ist auch der Grund für die Effektivität von Aufforderungen wie „Lass uns Schritt für Schritt denken“, die häufig diskutiert werden. 


Hier zur Veranschaulichung noch einmal meine Eingabeaufforderungenen. Diesmal mit der jeweiligen Antwort von ChatGPT.

Eingabeaufforderung 1:

Algorithmus 1 benötigt N * (N-1) * (N-2) * (N-3) Sekunden. Algorithmus 2 benötigt (N-1) * (N-2) *(N-3) * 2 * 1 Sekunden für die Ausführung. Wenn N=6, welcher Algorithmus ist schneller. Gib die Antwort, dann begründe sie.

Antwort 1 (falsche Antwort):

Bei N=6 sind beide Algorithmen gleich schnell.

Begründung: Berechnen wir die Ausführungszeit beider Algorithmen für N=6:

Für Algorithmus 1:
Ausführungszeit
= N∗(N−1)∗(N−2)∗(N−3)
Wenn N=6, dann:
Ausführungszeit
= 6∗(6−1)∗(6−2)∗(6−3)
= 6∗5∗4∗3
360 Sekunden

Für Algorithmus 2:
Ausführungszeit
= (N−1)∗(N−2)∗(N−3)∗2∗1
Wenn N=6, dann:
Ausführungszeit
= (6−1)∗(6−2)∗(6−3)∗2∗1
= 5∗4∗3∗2∗1
120 Sekunden

Also, wenn N=6, dann benötigt Algorithmus 1 360 Sekunden und Algorithmus 2 ebenfalls 360 Sekunden. Daher sind beide Algorithmen bei dieser spezifischen Eingabe gleich schnell.

Hier wird wohl die Begründung „zusammen gemogelt“, damit sie zur ersten Antwort passt.


Eingabeaufforderung 2:

Algorithmus 1 benötigt N * (N-1) * (N-2) * (N-3) Sekunden. Algorithmus 2 benötigt (N-1) * (N-2) *(N-3) * 2 * 1 Sekunden für die Ausführung. Wenn N=6, welcher Algorithmus ist schneller. Gib zunächst eine Begründung an und dann die Antwort.

Antwort 2 (richtige Antwort):

Begründung:
Berechnen wir die Ausführungszeit beider Algorithmen für N=6:

Für Algorithmus 1: 
Ausführungszeit = N∗(N−1)∗(N−2)∗(N−3)
Wenn N=6, dann Ausführungszeit
= 6∗(6−1)∗(6−2)∗(6−3)
= 6∗5∗4∗3
360 Sekunden

Für Algorithmus 2: 
Ausführungszeit = (N−1)∗(N−2)∗(N−3)∗2∗1
Wenn N=6, dann: Ausführungszeit
= (6−1)∗(6−2)∗(6−3)∗2∗1
= 5∗4∗3∗2∗1
120 Sekunden

Wenn wir die Ausführungszeiten der beiden Algorithmen vergleichen, benötigt Algorithmus 1 360 Sekunden und Algorithmus 2 nur 120 Sekunden.

Antwort: Bei N = 6 ist Algorithmus 2 schneller.


Es ist von großer Bedeutung, die Funktionsweise von Algorithmen genau zu verstehen, um effektiv mit ihnen arbeiten zu können. Die Algorithmen sind äußerst komplex und es ist unmöglich, alle Details zu kennen. Dies jedoch auch nicht notwendig. Wenn Sie jedoch ein tieferes Verständnis für wichtige Teile der Technologie erlangen, können Sie Ihre Erkenntnisse erweitern. 

Für eine unausgereifte Technologie wie LLMs ist ein tiefes Verständnis der Technologie besonders wertvoll. Im Gegensatz zur ausgereiften Technologie wie GPS, die von den meisten von uns ohne großes Hintergrundwissen genutzt werden kann, können Eingabeaufforderungen bei LLMs unerwartete Auswirkungen haben. Entwickler, die das Potenzial von LLMs verstehen, können effektivere Anwendungen schneller und einfacher erstellen als diejenigen, die sich nicht intensiv damit auseinandersetzen. Ein tiefes Verständnis der Technologie hilft auch bei Entscheidungen, wann es am besten ist, eine Handvoll vielversprechender Eingabeaufforderungen auszuprobieren und die Iteration fortzusetzen, anstatt im Voraus eine Lösung zu suchen.

Normalisierung in der Data Science: Gleichberechtigte Beiträge von Variablen in der Analyse

In diesem Artikel möchte ich das Thema Normalisierung in Bezug auf Data Science genauer betrachten und aufzeigen, wie es dazu beitragen kann, dass Variablen, die auf verschiedenen Skalen gemessen werden, gleichermaßen für die Analyse genutzt werden können. Normalisierung ist besonders relevant, wenn es darum geht, multivariate Analysen durchzuführen, bei denen mehrere Prädiktorvariablen in Beziehung zu einer Antwortvariablen gesetzt werden. In solchen Analysen ist es wichtig, dass alle Variablen gleichermaßen zur Analyse beitragen. Ich möchte verdeutlichen, wie wichtig es ist, die Daten auf eine einheitliche Skala zu bringen, um eine aussagekräftige Analyse durchführen zu können. 

Weiterlesen

Einführung in den k-Means Algorithmus: Entdecken Sie die Magie der Clusteranalyse

Herzlich willkommen in der beeindruckenden Welt der Datenanalyse, in der Algorithmen wie k-Means die unüberschaubare Vielfalt riesiger Datenmengen in übersichtlich strukturierte und leichter verständliche Informationen umwandeln. Ganz gleich, ob Sie ein Unternehmer auf der Suche nach neuen Marktsegmenten sind oder ein Fotograf, der seine Aufnahmen optimieren möchte – der k-Means Algorithmus hilft bei der Gruppierung ähnlicher Daten. In diesem Blog-Artikel werde ich den k-Means Algorithmus entschlüsseln und Ihnen aufzeigen, wie er dazu beiträgt, verborgene Strukturen und Zusammenhänge in Ihren Daten zu entdecken.

Weiterlesen

Hierarchisches Clustering / Dendrogramme

Im Bereich des Unsupervised Learnings gibt es verschiedene Ansätze, um Muster in Daten zu erkennen. Einer dieser Ansätze ist das hierarchische Clustering.

Beim hierarchischen Clustering werden die Datenpunkte schrittweise zu Gruppen zusammengefasst, wobei ähnliche Datenpunkte in der gleichen Gruppe landen. Dabei wird eine Hierarchie von Gruppen gebildet, die sich entweder von oben nach unten (agglomeratives Clustering) oder von unten nach oben (divisives Clustering) aufbaut.

Weiterlesen

Clustering-Verfahren

Clustering ist ein Prozess, bei dem ähnliche Elemente oder Objekte aus einem Datensatz in Untergruppen zusammengefasst werden. Dies geschieht häufig, um Daten zu analysieren oder zu visualisieren. Clustering kann auch verwendet werden, um ähnliche Dinge zu finden oder abzugrenzen. Unternehmen können so etwa Kundendaten clustern, um bessere Geschäftsentscheidungen zu treffen.

Cluster-Verfahren sind eine Form des maschinellen Lernens. Wir betrachten hier Cluster-Verfahren als unüberwachtes Lernen (unsupervised learning), bei dem die Einteilung in Klassen nur aufgrund der vorhandenen Daten und ohne speziellen Lernschritt erfolgt. Demnach sind die Daten in dem Datensatz nicht benannt, weshalb Algorithmen prädikative Methoden einsetzen müssen, um Muster, Beziehungen und Verbindungen in dem unverarbeiteten Datensatz zu identifizieren. 

Weiterlesen

Was ist Machine Learning?

Maschinelles Lernen ist der Erwerb von neuem Wissen, das durch ein künstliches System erzeugt wird. Auf ähnliche Weise wie ein Mensch generiert der Computer Wissen anhand von Erfahrung und kann eigenverantwortlich Lösungen für neue und unerforschte Probleme ermitteln.

Machine Learning ist ein Teilbereich der künstlichen Intelligenz (Engl.: Artificial Intelligence (AI)), der sich mit dem Erlernen von Mustern aus Daten beschäftigt. Durch das Training von Algorithmen mit großen Datensätzen können Machine-Learning-Systeme automatisch nach Mustern in Daten suchen und diese erkennen. Das ermöglicht es den Systemen, Aufgaben zu erledigen, die für Menschen schwierig oder sogar unmöglich wären, da die zugrundeliegenden Daten zu umfangreich sind. 

Weiterlesen