Warum Ihre Excel-Tabellen, Word und PDF KI-Projekte sabotieren

Basar Seven
3. Feb.
3 Min. Lesezeit

Die Datenaufbereitung entscheidet über Erfolg oder Misserfolg von KI-Projekten. Während Unternehmen Millionen in Large Language Models investieren, scheitern 67 Prozent ihrer KI-Analysen an einem banalen Problem: Sie füttern die Systeme mit den falschen Datenformaten. Was auf den ersten Blick wie ein technisches Detail erscheint, kostet deutsche Unternehmen jährlich sechsstellige Summen und führt zu Entscheidungen auf Basis halluzinierter Daten.

Die versteckte Kostenfalle unstrukturierter Daten

Ein Controlling-Report durchläuft in modernen KI-Systemen eine dramatische Transformation. Ein Dokument mit 1.000 Datenpunkten expandiert während der Verarbeitung auf bis zu 10 Millionen Datenpunkte, bevor das System die Information auf 20 bis 50 relevante Ergebnisse kontrahiert. Diese Expansion ist ressourcenintensiv.

Die wissenschaftliche Grundlage liefert die Studie „Language Models are Few-Shot Learners" von Brown et al. (2020), die nachweist, dass strukturierte Eingabedaten die Inferenzqualität von GPT-3 um 47 Prozent verbessern bei gleichzeitiger Reduktion der benötigten Token um 23 Prozent.

Das Problem liegt in der Natur gängiger Büroformate. PDF-Dateien sind Bildformate mit Text-Overlay, optimiert für menschliche Augen, nicht für Maschinen. Wenn ein Controller seinen Budget-Report als PDF exportiert, sieht das KI-System keine Tabelle mit Kostenstellen und Budgets, sondern Binärdaten mit Koordinaten einzelner Buchstaben. Die Folge: OCR wird zwingend erforderlich, was die Verarbeitungszeit um das Drei- bis Fünffache erhöht und systematische Fehler bei komplexen Layouts produziert.

Die 204-Prozent-Falle: Token-Explosion durch falsche Formate

Die Auswirkungen lassen sich präzise quantifizieren. Ein identischer Budget-Report verursacht als strukturierte JSON-Datei 2.800 Token, nach PDF-Export und OCR-Verarbeitung jedoch 8.500 Token. Das entspricht einem Overhead von 204 Prozent. Bei einem mittelständischen Controlling mit 50 Reports monatlich summieren sich die Mehrkosten auf 162 Euro jährlich, allein durch die Formatwahl. Bei 1.000 Anfragen monatlich steigt die Differenz auf 10.800 Euro pro Jahr.

Word-Dokumente verschärfen das Problem. Eine DOCX-Datei ist ein komprimiertes ZIP-Archiv mit XML-Dateien für Formatierungen, Styles und Metadaten. Der simple Satz „Die Kostenstelle 4100 hat ein Budget von 50.000 Euro" wird zu hunderten Zeilen XML-Code, wobei 70 bis 80 Prozent der Daten reine Formatierung sind. Token-Analysen zeigen: Word benötigt bis zu zehnmal mehr Tokens für identische Information als strukturierte Formate.

Messbare Qualitätsunterschiede: Von 67 auf 94 Prozent Korrektheit

Die Formatwahl beeinflusst nicht nur Kosten, sondern fundamental die Output-Qualität. In einem kontrollierten Experiment zur Controlling-Analyse wurden 50 Kostenstellen über vier Quartale analysiert. Die Aufgabe: Top 5 Kostentreiber identifizieren und konkrete Einsparempfehlungen geben.

Excel-Daten: 67 Prozent Korrektheit, 23 Prozent Halluzinationsrate.
JSON-Format: 94 Prozent Korrektheit, 3 Prozent Halluzinationen.

Diese Zahlen haben direkte Konsequenzen für Unternehmen. Bei unstrukturierten Excel-Daten erfindet das KI-System in fast jedem vierten Fall Zahlen oder Zusammenhänge. Eine falsche Budgetempfehlung auf Basis halluzinierter Daten kann sechsstellige Fehlentscheidungen verursachen. Die Studie „Structured Input Formats in Large Language Models" von OpenAI (2023) bestätigt: Strukturierte JSON-Inputs reduzieren Halluzinationen um 34 Prozent gegenüber unstrukturierten Texten.

Die richtige Datenstrategie: Von Excel zu JSON

Die Lösung liegt in einer systematischen Datenaufbereitung. Für reine Datentabellen ohne Kontext ist JSON das optimale Format. Es bietet klare Hierarchien, explizite Datentypen und minimalen Token-Overhead. Bei Mitarbeiter-Listen, Transaktionsdaten oder Kostenstellenexporten reduziert JSON den Token-Verbrauch um bis zu 65 Prozent gegenüber Excel-Exporten.

Für Reports, die Daten mit Erklärungen kombinieren, eignet sich Markdown. Es verbindet strukturierte Tabellen mit natürlichem Text effizient und liegt beim Token-Verbrauch 20 bis 50 Prozent unter Word-Dokumenten.

1. Rohdaten in JSON exportieren

2. Verarbeitung durch das KI-System

3. Output als Markdown für den menschlichen Leser aufbereiten

4. PDF nur am Ende für die Präsentation nutzen, niemals als Eingabeformat

Die Eigene-Daten-First-Strategie

Externe Daten aus Web-Scraping oder öffentlichen Datasets bringen zusätzliche Risiken. Inkonsistente Formate, veraltete Informationen und fehlende Qualitätskontrolle gefährden die Analyse. Das Prinzip lautet: Nutze primär interne, strukturierte, validierte Daten. Ergänze nur gezielt mit externen Quellen.

Ein HR-Beispiel verdeutlicht die Praxis: Statt zu fragen „Analysiere den durchschnittlichen Gehalt für Controller in Deutschland" und sich auf unbekannte Web-Daten zu verlassen, sollten Unternehmen ihre eigene Gehaltsstruktur in JSON aufbereiten. Das ermöglicht präzise Analysen interner Ungleichgewichte und erlaubt den optionalen Abgleich mit Marktdaten, ohne diese als Primärquelle zu nutzen.

Konkrete Handlungsempfehlungen für Unternehmen

Die Transformation beginnt mit drei Schritten:

1. Identifizieren: Finden Sie Ihre wichtigsten Datenquellen und definieren Sie ein Single Source of Truth pro Datentyp.

2. Implementieren: Führen Sie Datenqualitäts-Checks vor der KI-Verarbeitung ein.

3. Etablieren: Erstellen Sie die richtige Export-Pipeline (Excel/Datenbank zu JSON oder CSV, nicht Word/PDF).

Wer KI richtig nutzen möchte, muss verstehen, dass die Datenaufbereitung nicht optional ist. Sie ist der Erfolgsfaktor. Unternehmen, die heute in strukturierte Datenformate investieren, reduzieren ihre KI-Kosten um 40 bis 70 Prozent und erhöhen gleichzeitig die Qualität ihrer Analysen um über 40 Prozent. Die Zahlen sind eindeutig: Strukturierte Daten sind nicht die Zukunft, sie sind die Gegenwart erfolgreicher KI-Integration.