C#.NET * C++ * JAVASCRIPT * PYTHON * DIVERSES
XML * XML-SCHEMA * XPATH * XSL * XSL-FO * SVG * XQUERY * XPROC * ANT



Diverses / Stolpersteine / Datenqualität

Datenqualität

Datenqualität

➪ Eine wichtige Grundlage für die Funktionstüchtigkeit einer Software ist die Qualität der Daten, mit denen sie arbeitet.

Diese Daten können entweder bereits vorliegen, sie können neu eingehen, etwa durch einen Datenaustausch, oder sie können durch Programme generiert werden.

Um effizient damit arbeiten zu können, müssen jene Daten realistisch, korrekt und verfügbar sein. Sehen wir mal von Vorfällen ab, in denen eine Datenbank oder ein Server vorübergehend den Dienst aufgekündigt hat, so ist die Bereitstellung etlicher Terabytes an Daten technisch kein Problem.

Realistische Daten müssen der Realität entsprechen, die die Software später bewältigen soll. Je komplexer und vielfältiger die relevante Datenstruktur, desto größer ist auch die Vielfalt unterschiedlicher, aussagekräftiger, praxisrelevanter Testdateien, die notwendig bereitgestellt werden müssten: desto geringer ist die Aussagekraft automatisch generierter Testfälle.

Korrekte Daten müssen aktuell und vollständig sein. Sie sind eine wesentliche Grundlage für effizientes Arbeiten. Kontaktadressen zum Kunden, zuverlässige Stammdaten sollten selbstverständlich sein. Nur auf der Basis einer aktuellen und vollständigen Datenlage lassen sich komplexe Geschäftsmodelle implementieren oder Managemententscheidungen von weittragender Bedeutung treffen.

Ein zentraler Qualitätsmaßstab für die Korrektheit der Daten sind exakt definierte Datenstrukturen, die den Zeichensatz, den Datentyp der jeweiligen Felder sowie etwaige gegenseitige (referenzielle) Abhängigkeiten zwischen ihnen umfassen (so muss die Rechnungsadresse gefüllt sein, um eine Rechnung als Art der Zahlung eintragen zu können). Hier kommen Regeln für die Prüfung der Konsistenz, der Plausibilität und der Integrität zum Einsatz.

Das setzt jedoch voraus, dass die betreffenden Datenstrukturen einwandfrei definiert wurden. In nicht wenigen Fällen werden jedoch nur die Datentypen der Felder deklariert, und auch das recht lax: da wird eine 5stellige Zahl aus Gründen der Bequemlichkeit als 20stelliger String benannt. Auf gegenseitige Abhängigkeiten zwischen den Feldern wird gleich ganz verzichtet (zur Vermeidung "überflüssiger Spannungen"). Derlei Nachlässigkeiten schränken die Brauchbarkeit der Datenstrukturen als Qualitätsmaßstab ein. Die Validierung von Daten mithilfe fragwürdiger Strukturen ist selbst auch fragwürdig - sofern überhaupt validiert wird.

Hinzu kommt, dass es schwierig ist, Datenstrukturen zu Beginn eines Softwareprojektes einmal für alle Zeiten unveränderlich zu definieren. Einige Anforderungen bzw. Abhängigkeiten verfallen, andere kommen neu hinzu. (Wer immer nur nach Plan arbeitet, kriegt bestenfalls, was der Plan vorsieht, aber nicht, was er braucht.) Wenn die Datenstrukturen (und die darauf aufbauende Anwendung) nicht "mitwachsen", dann stehen zahlreiche Anwender der Software bald vor dem Problem, dass zusätzliche Informationen nicht in die vorgegebene Struktur passen.

Wichtige Zusatzinformationen werden dann häufig außerhalb der eigentlichen Anwendung in unsystematischer Form abgespeichert. Sie liegen in unterschiedlichen, nicht miteinander verknüpften Datentöpfen, die getrennt voneinander gepflegt werden, von sehr unterschiedlicher Aktualität sind und damit ein ideales Arbeitsfeld für Hobby-Archäologen darstellen. (Eines ihrer Forschungsergebnisse dürfte die Feststellung sein, dass zahlreiche Dokumente aus Microsofts Office-Familie stammen.)

Gravierender ist, dass die "Schattendaten" sich einer systematischen Auswertbarkeit durch die eigentliche Anwendung entziehen. Sie stehen für die komplex definierten Geschäftsmodelle oder für Managemententscheidungen oft nicht zur Verfügung. Fehlentscheidungen sind vorprogrammiert. Auch ist die doppelte Pflege der ursprünglichen Datenstrukturen und der sie ergänzenden "Schattendaten" kostenintensiv.

Fehlende, fehlerhafte oder veraltete Daten sind IT-Kostentreiber von herausragender Bedeutung. Allein der Kostenaufwand für die Recherche und Korrektur der Daten ist beträchtlich. Weit gravierender können Folgekosten werden: die wirtschaftlichen Schäden, die durch fehlerhafte Software / mangelhafte Datenqualität verursacht werden, umfassen jährlich stolze Milliardenbeträge.

Tools für die Messung von Datenqualität sind auf dem Markt ebenso verfügbar wie strategische Ansätze, diese zu verbessern. Aber der bloße Einsatz von Tools hilft wenig, wenn der nachhaltige Wille fehlt.

wg / 22. Mai 2021



Fragen? Anmerkungen? Tipps?

Bitte nehmen Sie Kontakt zu mir auf.






Vielen Dank für Ihr Interesse an meiner Arbeit.



V.i.S.d.P.: Wilfried Grupe * Klus 6 * 37643 Negenborn

☎ 0151. 750 360 61 * eMail: info10@wilfried-grupe.de

www.wilfried-grupe.de/Softwarequalitaet5.html