Grafik für -Die Vertrauens-Illusion: Warum wir im Zeitalter der KI-Bewertungen blind navigieren (Teil 1)
Management und Führung

Die Vertrauens-Illusion: Warum wir im Zeitalter der KI-Bewertungen blind navigieren (Teil 1)

Was wäre, wenn Sie erfahren würden, dass mit an Sicherheit grenzender Wahrscheinlichkeit ein großer Teil der Online- Bewertungen von einer Künstlichen Intelligenz (KI) geschrieben wurde? Und was, wenn man Ihnen sagt, dass weder Sie noch der Online-Händler eine realistische Chance haben, dies zu erkennen?

Dies ist keine dystopische Zukunftsvision. Es ist die Realität des Jahres 2025, wie sie durch eine aktuelle wissenschaftliche Arbeit mit dem Titel "Large Language Models as ‘Hidden Persuaders’: Fake Product Reviews Are Indistinguishable to Humans and Machines" von Weiyao Meng und seinem Team eindrucksvoll belegt wird. Die Diagnose dieser Studie stellt einen seismischen Bruch eines fundamentalen Fundaments dar, auf dem unser gesamter digitaler Handel aufgebaut ist: dem Vertrauen in die "Weisheit der Vielen".

Während Werbung als solche erkennbar ist und eine gewisse Medienkompetenz zur Einordnung ermöglicht, tarnen sich KI-generierte Bewertungen als authentische Verbrauchererfahrungen. Sie nutzen unsere evolutionär bedingte Neigung, Gleichgesinnten zu vertrauen, gegen uns.

Selbstüberschätzung als zusätzliches Problem

Ein weiterer beunruhigender Befund war die massive Selbstüberschätzung der Teilnehmer:innen in dieser Untersuchung. Während ihre tatsächliche Leistung bei etwa 51% lag, schätzten sie ihre Fähigkeiten im Durchschnitt auf 67% ein. Diese Diskrepanz zwischen Selbstwahrnehmung und Realität ist aus psychologischer Sicht besonders problematisch: Verbraucher:innen, die ihren eigenen Urteilsfähigkeiten übermäßig vertrauen, sind noch anfälliger für Manipulation.
Grafik Selbstüberschätzung © Josef Sawetz

1. Der Paukenschlag – Was die Wissenschaft wirklich enthüllt hat

Die Forscher:innen führten eine Reihe von Experimenten durch, um eine scheinbar einfache Frage zu beantworten: Können wir echte, von Menschen geschriebene Produktbewertungen von gefälschten, durch KI generierten Bewertungen unterscheiden? Die Antwort ist ein klares und beunruhigendes Nein.

Die menschlichen Teilnehmer:innen der Studie erreichten eine Genauigkeit von nur 50,8 %. Das ist statistisch gesehen nicht besser, als eine Münze zu werfen. Unser Bauchgefühl, unsere Intuition, unsere Lebenserfahrung – all die Werkzeuge, auf die wir uns verlassen, um Authentizität zu beurteilen – versagen komplett.

Doch der eigentliche Schock kommt erst noch: Die Forscher:innen stellten dieselbe Aufgabe den modernsten KI-Modellen. Das Ergebnis: Die KI-Systeme waren genauso schlecht oder sogar schlechter als die Menschen. Das leistungsstärkste KI-Modell kam ebenfalls nur auf eine Genauigkeit von 50 %. Andere waren deutlich schlechter.

Aus psychologischer Sicht ist dies ein Wendepunkt. Bisher gingen wir davon aus, dass Technologie das Problem der Fälschungen irgendwann lösen würde. Die Studie zerstört diese Hoffnung und zeigt, warum die Lage so prekär ist:
Grafik Genauigkeit bei der Authentizitätsbeurteilung © Josef Sawetz

Das Versagen der menschlichen Heuristik: Unser "Lügendetektor" ist kaputt

Wir Menschen nutzen mentale Abkürzungen, sogenannte Heuristiken, um die Welt zu verstehen. Bei Online-Bewertungen suchen wir nach Mustern: Ein kleiner Tippfehler wirkt authentisch ("to err is human"). Eine sehr emotionale Sprache wirkt echt. Eine ausgewogene Kritik mit Vor- und Nachteilen wirkt glaubwürdig. Das Problem: Die KI-Modelle wurden darauf trainiert, genau diese Muster perfekt zu imitieren. Sie können auf Befehl "authentisch menschliche" Texte mit kleinen Fehlern, Umgangssprache und emotionalen Nuancen erstellen.

Emotionale Authentizität

KI-Systeme können mittlerweile auch emotionale Authentizität simulieren. Sie verwenden umgangssprachliche Ausdrücke, persönliche Anekdoten und den typischen Tonfall echter Verbraucher:innen. Diese emotionale Komponente ist besonders wirksam, da sie unser Vertrauen auf einer unbewussten Ebene anspricht.

Menschliche Heuristiken: Der "Skeptizismus-Bias"

Die Studie deckt zudem einen "Skepticism Bias" bei Menschen auf: Menschen neigen dazu, besonders positive Bewertungen mit Skepsis zu betrachten. Diese "zu-schön-um-wahr-zu-sein"-Heuristik führt dazu, dass perfekt formulierte, überschwänglich positive Bewertungen eher als gefälscht eingestuft werden. Gleichzeitig werden Bewertungen mit kleinen Fehlern oder gemischten Gefühlen als authentischer wahrgenommen. Die Manipulator:innen wissen das und nutzen es aus.


2. Der blinde Fleck der Maschine: Der "Veracity Bias" (Wahrheits-Voreingenommenheit)

Warum versagt die KI bei der Detektion? Die Forschenden identifizierten einen faszinierenden Grund, den sie "Veracity Bias" nennen. Die KI-Modelle wurden mit den gewaltigen Textmengen des Internets trainiert, die zum überwiegenden Teil aus authentischen, von Menschen geschriebenen Inhalten bestehen. Dadurch hat die KI eine tief verankerte "Grundannahme": Text ist im Zweifel echt.

Das macht das System anfällig für Betrug. Laut einer aktuellen Statistik sind weltweit bis zu 30 % aller Online-Bewertungen fake, und sie kosten Verbraucher schätzungsweise 787,7 Milliarden US-Dollar im Jahr 2025. Das ist enorm, weil Bewertungen den Umsatz beeinflussen: Jeder zusätzliche Stern kann den Verkauf um 5-9 % steigern.

Der Teufelskreis

Je mehr gefälschte Bewertungen im Internet kursieren, desto unzuverlässiger werden Online-Bewertungen als Informationsquelle. Dies führt zu einem Teufelskreis: Da authentische Bewertungen an Wert verlieren, sinkt der Anreiz für Verbraucher:innen, ehrliche Bewertungen zu schreiben. Gleichzeitig steigt der relative Wert gefälschter Bewertungen, was ihre Produktion noch lukrativer macht.

Grafik Kognitive Verzerrungen © Josef Sawetz

Ausnutzung kognitiver Verzerrungen

Die KI-generierten Bewertungen nutzen systematisch menschliche kognitive Verzerrungen aus:
  • Verfügbarkeitsheuristik: Detaillierte Bewertungen wirken glaubwürdiger, weil sie lebendige Bilder in unserem Kopf erzeugen
  • Bestätigungsfehler: Bewertungen, die unsere Vorannahmen bestätigen, werden weniger kritisch hinterfragt
  • Soziale Bewährtheit: Die schiere Anzahl positiver Bewertungen suggeriert Qualität, unabhängig von ihrer Authentizität

Die ungleiche Schlacht: Generierung schlägt Detektion um Längen

Die Studie offenbart eine fundamentale Asymmetrie: Die Fähigkeit von KI, menschenähnliche Texte zu erzeugen, ist ihrer Fähigkeit, solche Texte zu erkennen, meilenweit voraus.

Das ist ein Wettrüsten, das die Fälschenden bereits gewonnen haben. Es ist, als würde man einem Fälschenden einen hochmodernen Drucker geben, um Geld zu drucken, während die Polizei nur eine Lupe aus dem 19. Jahrhundert zur Überprüfung hat.

Der 2. Teil dieses Artikels folgt. Stay tuned.

Literatur
 
  • Bandura, A. (1977). Social learning theory. Prentice Hall.
  • Chaiken, S. (1980). Heuristic versus systematic information processing and the use of source versus message cues in persuasion. Journal of Personality and Social Psychology, 39(5), 752–766.
  • Cialdini, R. B. (2001). Influence: Science and practice (4th ed.). Allyn & Bacon.
  • Chevalier, J. A., & Mayzlin, D. (2003). The effect of word of mouth on sales: Online book reviews. NBER Working Paper.
  • Dathathri, S., et al. (2024). Scalable watermarking for identifying large language model outputs. Nature.
  • Doctorow, C. (2023). TikTok's enshittification. Pluralistic: Daily Links from Cory Doctorow.
  • Duan, W., Gu, B., & Whinston, A. B. (2008). Do online reviews matter?—An empirical investigation of panel data. Decision Support Systems, 45(4), 1007-1016.
  • Ecker, U. K. H., Lewandowsky, S., & Tang, D. T. W. (2022). Explicit warnings reduce but do not eliminate the continued influence of misinformation. Memory & Cognition, 38(8), 1087–1100.
  • European Commission. (2024). Unfair commercial practices directive – overview & updates. European Commission
  • EUR-Lex. (2019). Directive (EU) 2019/2161 (Omnibus). EUR-Lex
  • Floyd, K., Freling, R., Alhoqail, S., Cho, H. Y., & Freling, T. (2014). How online product reviews affect retail sales: A meta-analysis. Journal of Retailing, 90(2), 217–232.
  • Forman, C., Ghose, A., & Wiesenfeld, B. (2008). Examining the relationship between reviews and sales: The role of reviewer identity disclosure in electronic markets. Information Systems Research, 19(3), 291-313.
  • Gandhi, A., Hollenbeck, B., & Li, Z. (2024/2025). The equilibrium effects of fake reviews on Amazon.com. Working paper.
  • Hardin, G. (1968). The tragedy of the commons. Science, 162(3859), 1243–1248.
  • Hu, N., Liu, L., & Zhang, J. J. (2008). Do online reviews affect product sales? The role of reviewer characteristics and temporal effects. Information Technology and Management, 9, 201-214.
  • Krishna, K., Song, Y., Karpinska, M., Wieting, J., & Iyyer, M. (2023). Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense. NeurIPS Poster. openreview.net
  • Lang, A. (2000). The limited capacity model of mediated message processing. Journal of Communication, 50(1), 46–70.
  • Levin, I. P., & Gaeth, G. J. (1988). How consumers are affected by the framing of attribute information before and after consuming the product. Journal of Consumer Research, 15(3), 374–378.
  • Liang, W., et al. (2023). GPT detectors are biased against non-native English writers. Patterns.
  • Li, H., et al. (2015). Analyzing and detecting opinion spam on a large-scale dataset. ICWSM.
  • Meng, W., Harvey, J., Goulding, J., Carter, C. J., Lukinova, E., Smith, A., Frobisher, P., Forrest, M., & Nica-Avram, G. (2025). Large Language Models as “Hidden Persuaders”: Fake product reviews are indistinguishable to humans and machines. arXiv. arXiv
  • Mukherjee, A., et al. (2013). Spotting opinion spammers using behavioral footprints. KDD.
  • Mudambi, S. M., & Schuff, D. (2010). What makes a helpful online review? MIS Quarterly, 34(1), 185–200.
  • OECD/BEUC (2025). How to make online reviews more reliable? BEUC
  • Packard, V. (1957). The Hidden Persuaders. David McKay Co.
  • Petty, R. E., & Cacioppo, J. T. (1986). The elaboration likelihood model of persuasion. Advances in Experimental Social Psychology, 19, 123–205.
  • Shukla, A. D., & Goh, J. M. (2024). Fighting fake reviews: Authenticated anonymous reviews using identity verification. Business Horizons, 67(1), 71-81.
  • Wang, Y., Wang, J., & Yao, T. (2019). What makes a helpful online review? A meta-analysis of review characteristics. Electronic Commerce Research, 19, 257–284.
  • Zhou, Y., et al. (2024). Evading AI-Text Detection through Adversarial Attack. LREC-COLING.
  • Zhu, F., & Zhang, X. (2010). Impact of online consumer reviews on sales: The moderating role of product and consumer characteristics. Journal of Marketing, 74(2), 133-148.
Alexandra Kamper-Neulentner © Hans Scherhaufer
Univ.-Lekt. Mag. Dr. Josef Sawetz ist Kommunikations- und Marketingpsychologe sowie Neurowissenschafter an der Universität Wien. Weitere Publikationen, Awards und aktuelle Forschungsprojekte finden Sie unter www.sawetz.com. Aktuell: Kommunikations- und Marketingpsychologie. Grundlagen kommunikativer und persuasiver Prozesse aus Psychologie, Neurowissenschaften, Evolutionsbiologie, Systemtheorie und Semiotik. Wien

Bildcredits: © Thapana Studio | stock.adobe.com (Header), © Josef Sawetz (Grafiken), © Privat (Portrait J. Sawetz)

bis
bis