Laut einer neuen Studie von Apple-Forschern sind heutige KI-Modelle noch weit davon entfernt, wie ein Mensch zu denken oder echte künstliche Intelligenz (AGI) zu erreichen. Obwohl Modelle wie ChatGPT, Claude und andere in letzter Zeit weiterentwickelt wurden, zeigen sie laut Apple deutliche Schwächen beim logischen Denken und Problemlösen.
Was die Studie zeigte
Die Forscher testeten in der Studie verschiedene KI-Modelle mit Denkspielen – nicht nur mit den üblichen Mathe- oder Programmieraufgaben, bei denen meist nur das Endergebnis zählt. Dabei stellten sie fest: Sobald die Aufgaben komplexer wurden, brachen die Leistungen der KI-Modelle regelrecht ein. Sie konnten die Lösungswege nicht gut verallgemeinern und machten oft widersprüchliche oder fehlerhafte Denkfehler.

Quelle: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf – Apple
Dabei wurden sowohl „denkende“ als auch „nicht-denkende“ Varianten der Modelle verglichen, also Modelle mit und ohne gezielte Zwischenschritte beim Denken- sogenannte thinking tokens. Ziel war es, zu verstehen, ob „denkfähige“ Modelle tatsächlich besser mit steigender Komplexität umgehen können.
Die Forscher führten Tests mit verschiedenen Puzzle-Aufgaben durch, bei denen die Komplexität systematisch erhöht wurde. Dabei identifizierten sie drei Leistungsphasen:
- Niedrige Komplexität – In einfachen Aufgaben schneiden die nicht-denkenden Modelle oft besser ab. Sie benötigen weniger Rechenaufwand und liefern trotzdem präzise Ergebnisse.
- Mittlere Komplexität – Hier kommen die Vorteile der denkenden Modelle zum Tragen. Sie können durch längere Argumentationsketten genauere Antworten geben.
- Hohe Komplexität – Ab einem bestimmten Punkt brechen beide Modelltypen komplett ein. Sie liefern keine korrekten Antworten mehr, selbst wenn sie ausreichend „Rechenzeit“ hätten.
Besonders überraschend war: Denkende Modelle passen ihre Denkintensität bei wachsender Schwierigkeit nicht sinnvoll an. Zunächst verwenden sie bei komplexeren Aufgaben mehr „thinking tokens“, also Zeichen für Denkprozesse. Doch kurz vor dem Leistungseinbruch reduzieren sie plötzlich diese Denkanstrengung, obwohl ihnen eigentlich genug Kapazität zur Verfügung stünde. Dieses Verhalten zeigt sich besonders stark bei OpenAIs o3-mini-Modell und etwas weniger bei Claude 3.7.

Quelle: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf – Apple
Weitere Ergebnisse
Besonders interessant ist gewesen, welchen Grund die Apple-Forscher für dieses Verhalten ausmachten. Denn im Zuge der Lösung einfacher Aufgaben finden die Modelle meist schon früh eine richtige Lösung, die sie dann jedoch aufgrund von „Overthinking“ verwerfen und mit weiteren falschen Schritten weiterarbeiten. Die Denkgenauigkeit nimmt bei einfachen Problem mit der Zeit ab, bei Mittleren kurzzeitig zu und bei komplexen Aufgaben versagt sie dann komplett.
Das Fazit der Forscher: Diese KI-Modelle tun oft nur so, als würden sie logisch denken – wirklich verstanden haben sie die Denkprozesse nicht. Die Forscher sprechen davon, dass mit zunehmender Schwierigkeit die „mentale Ausdauer“ der KI-Modelle abnimmt. Dies zeige deutlich, dass es grundlegende Grenzen heutiger Sprachmodelle gibt und der Weg zur echten künstlichen Intelligenz noch länger ist, als viele glauben.
Das widerspricht auch Aussagen von KI-Firmenchefs wie Sam Altman (OpenAI) oder Dario Amodei (Anthropic), die schon in den nächsten Jahren mit AGI rechnen. Apple hingegen sieht aktuell grundsätzliche Hürden, die überwunden werden müssen, bevor Maschinen wirklich menschenähnlich denken können.
In eigener Sache: Zur Analyse sowie Informationsbeschaffung nutzen wir die Software InvestingPro unseres Partners
investing.com. Mit dem Partnerlink https://www.investing-referral.com/aff90/ sparen Sie immer den maximalen Rabatt.
Wenn Sie nichts wichtiges rund um die Märkte, Wirtschaft und Politik verpassen wollen, folgen Sie uns auf Home – EconomyGlobal.
Foto von Pavel Danilyuk- Pexels.com