Think

KI-Assessment

 

Vom Proof-of-Concept zur Enterprise-tauglichen KI-Lösung

Author

Marc Zollingkoffer
Director Software Engineering
bei SYZYGY Techsolutions

Lesedauer
6 Minuten

Publiziert
14.05.2025

Für KI-Projekte gelten dieselben Regeln wie für IT-Projekte im Allgemeinen. Mit der Fertigstellung eines Proof-of-Concept (PoC) fängt die Arbeit erst an. Dies gilt insbesondere, weil diese PoCs mittlerweile innerhalb von Stunden oder gar Minuten verfügbar sind. Je schneller die reine Funktionalität umgesetzt ist, desto mehr rücken Themen wie eine sorgfältige Planung des Betriebs, das Qualitätsmanagement, Compliance- und Governance-Aspekte in den Vordergrund. Ganz unabhängig von der umzusetzenden Lösung – die von der Nutzung einfacher Chatbots bis zu Agentic Systems mit eigenen, maßgeschneiderten Modellen für Spezialaufgaben reichen kann – gilt es, Prozesse, Technik und Organisation ganzheitlich zu betrachten und individuell aufeinander abzustimmen. 

Um Projekte in den produktiven Betrieb zu überführen, setzen wir in unseren Projekten frühzeitig auf strukturierte Assessments und Surveys. Das gilt selbstverständlich auch für KI-Projekte: Zwar greifen hier dieselben grundlegenden Prinzipien wie in der übrigen IT, doch gibt es zusätzlich einige entscheidende Aspekte zu beachten, wenn ein langfristig tragfähiges Produkt entstehen soll.

Ein Fragenkatalog bzw. Assessment kann individuell auf eine Organisation oder eine Initiative zugeschnitten sein. Er prüft in unterschiedlicher Detailtiefe alle relevanten Bereiche, um den Reifegrad einer KI-Initiative festzustellen. Unser eigenes internes KI-Assessment z.B. nutzt die Dimensionen Organisation, Konzept, Daten, Security, Dev & Ops und Compliance, um aufzuzeigen, wie nah unsere KI-Projekte tatsächlich an einem produktiven Einsatz sind.  

Im Folgenden wollen wir uns diese Dimensionen und die damit verbundenen Fragen ein wenig genauer anschauen. 

Organisation

Ein reibungsloser Rollout einer KI-Initiative erfordert mehr als Technik: Executive Sponsorship sichert Ressourcen, während ein früh eingebundener Fachbereich Akzeptanz schafft. Regelmäßige Demo-Loops, klare Kommunikationspläne und ein strukturiertes Schulungsprogramm sorgen dafür, dass Nutzer:innen den Mehrwert verstehen und neue Prozesse übernehmen. Deshalb müssen Change- und Stakeholder-Management früh adressiert werden.  

Ein Assessment kann z.B. mit folgenden Fragen starten: 

  • Wer trägt Verantwortung auf Executive-Ebene? 
  • Wo liegt das Change-Backlog? 
  • Wie ist der Kenntnisstand bezüglich KI bei den Beteiligten, wie hoch ist der Schulungsbedarf je Rolle? 

Konzept

Auf der konzeptionellen Ebene muss zunächst geklärt werden, wie umfangreich und komplex die KI-Lösung tatsächlich sein soll. Welcher Komplexitätsgrad ist für den konkreten Anwendungsfall notwendig und sinnvoll? Handelt es sich um einen einfachen Chatbot oder stehen komplexe, agentenbasierte Workflows mit einem oder gar mehreren Agenten auf dem Plan?  

Speziell für solche Agentic Systems ist die Frage der Autonomie und der reibungslosen Integration von menschlichen Akteuren essenziell. Wie weit darf ein Agent gehen, bevor er bei seinem Auftraggeber rückfragen muss? Für solche Rückfragen hat sich der Begriff Human-in-the-Loop (HITL) etabliert. Je höher der gewünschte Automatisierungsgrad, desto wichtiger sind genaue Regeln, wann menschliche Eingriffe stattfinden oder wie viel Autonomie einem Agenten zugestanden wird. 

In diesem Zuge ist auch eine ganzheitliche und von Beginn an auf KI zugeschnittene UX mitzudenken, also ein UX-Konzept zu erstellen, das insbesondere KI-spezifische Nutzererfahrungen berücksichtigt. Es beinhaltet dabei einen – idealerweise – durchgängigen Feedback-Prozess durch Nutzer und Experten, um Rückmeldungen automatisiert in Optimierungsprozesse einfließen zu lassen. Siehe hierzu den Post Die Zukunft von Interfaces im Zeitalter von KI. 

Die Wahl des Modells (z.B. größeres LLM vs. spezialisiertes Open-Source-Modell) ist ebenfalls sorgfältig abzuwägen. Die Entscheidung hängt von Faktoren wie Qualität, Kosten, Compliance und Integrationsfähigkeit in bestehende Systeme ab. In dem Zuge muss entschieden werden, ob und welches Agenten-Framework verwendet wird.  

Schließlich sollte Prompt-Engineering nicht dem Zufall überlassen werden: Strukturiertes Management und kontinuierliches Testen von Prompts  – die zentral verwaltet und versioniert werden, sind der Schlüssel für robuste und verlässliche Ergebnisse. 

Beispielfragen: 

  • Welches konkrete Geschäftsproblem löst die KI-Lösung, und wie wird der Erfolg gemessen?  
  • Wie ist die Vorgehensweise zur Modellwahl? 
  • Human-in-the-Loop: Wie interagieren Benutzer:innen mit dem System? 
  • Wie wird Feedback ermöglicht? 

Daten

Ohne hochwertige Daten bleibt KI Stückwerk. Wer mehrere Datenquellen oder gar Datensilos im Unternehmen hat, braucht Strategien für konsistente Datenqualität und -aktualität sowie sinnvolle Governance-Regelungen, um eine tragfähige Knowledge Base zu erschaffen. Ebenso wichtig ist festzulegen, wo Daten gespeichert und verarbeitet werden dürfen, um Vorgaben wie DSGVO oder den EU-AI-Act einzuhalten. In welchen Geo-Regionen dürfen die Daten für die Knowledge Base gespeichert und wo für die Inferenz verarbeitet werden? Zur Beantwortung solcher Fragen kann die Dokumentation der Datenherkunft (Data-Lineage) sinnvoll sein, um genau nachvollziehen zu können, welchen Weg die Daten gehen.  

Sowohl für Betreiber als auch Nutzer:innen der Lösung ist zudem Vertrauen in die Korrektheit der Daten entscheidend: Für mehr Vertrauen in die Antworten lässt sich ein Konfidenzwert ausgeben, während Moderation und Filtermechanismen sicherstellen können, dass unerwünschte oder schädliche Inhalte vermieden werden. Zudem empfehlen sich Feedback-Schleifen, um aus erkannten Fehlern zu lernen. Wer schließlich die Rückverfolgbarkeit des Antwortprozesses gewährleistet, ermöglicht es, jederzeit nachzuvollziehen, auf welchen Daten und Regeln ein Ergebnis beruht – ein wichtiger Schritt zur Verlässlichkeit und Akzeptanz der KI-Lösung.  

Schließlich gilt es, automatisierte Prozesse zu etablieren, um die Korrektheit der Daten langfristig sicherzustellen: Welche automatisierten Plausibilitäts- und Faktenchecks werden definiert, um Halluzinationen des Modells zu verringern? 

Beispielfragen: 

  • Sind alle relevanten Datenquellen identifiziert und rechtlich nutzbar (Ownership, Einwilligungen)? 
  • Wie stellt das Data-Lineage-Konzept die Nachvollziehbarkeit der Datenherkunft, -verarbeitung und -nutzung sicher?
  • Welche Logging-Mechanismen werden benötigt, um Fehlerquellen zu identifizieren?

Security

Security ist ein wesentlicher Bestandteil jeder IT-Lösung – selbstverständlich auch für KI-Systeme. Allgemeine Best Practices sind hier anzuwenden und um KI-spezifische Vorkehrungen zu ergänzen.  Zu vermeiden ist insbesondere, dass durch Lücken in der Konfiguration von KI-Lösungen Zugriffsbeschränkungen und Datensichtbarkeiten aufgeweicht werden oder umgangen werden können.  

Speziell bei KI-Agenten empfiehlt es sich, Security-Prompts und rollenbasierte Zugriffsmodelle zu nutzen, damit diese nur in einem vordefinierten Rahmen agieren. Kritische Aktionen sollten grundsätzlich eine menschliche Zustimmung erfordern. Detaillierte Mechanismen legen fest, welche Tasks ein Agent nicht selbstständig übernehmen darf.

Auditierung und Protokollierung von Agent-Aktionen helfen dabei, die Nachvollziehbarkeit sicherzustellen – insbesondere dann, wenn ein KI-Agent im Namen eines Nutzers agiert. Ein Mehr-Augen-Prinzip und Sandboxing-Ansätze sorgen zusätzlich dafür, dass kritische Änderungen in isolierten Umgebungen getestet und erst nach Freigabe ausgerollt werden.  

Zur Prävention von Angriffen kann man Jailbreak-Tests sowie regelmäßige Red-Team-Übungen durchführen und dabei auch KI-spezifische Angriffsszenarien (z.B. Prompt Injection) berücksichtigen. 

Beispielfragen: 

  • Welche präventiven Maßnahmen vor Angriffen werden getroffen? 
  • Greift ein rollenbasiertes Berechtigungskonzept auf Modell- und Datenebene? 
  • Wie wird das Bewusstsein und Verständnis der Projektbeteiligten für Cybersecurity-Bedrohungen, die speziell KI- und Machine-Learning-Systeme betreffen, bewertet? 

Dev & Ops

Ein System zu erstellen, ist die eine Sache. Es dauerhaft sicher und effizient zu betreiben, die andere. Daher sollte man schon zu Beginn einer KI-Initiative auch Wartungs- und Betriebsaspekte berücksichtigen und die fortlaufende Integration in DevOps- sowie Support-Prozesse mit definierten KPIs sicherstellen. Das gilt natürlich für alle IT-Systeme, aber man sollte einige Spezifika im Blick behalten, die besonders im Kontext von KI wichtig sind: Eine KI-Lösung erfordert laufendes Monitoring und klare Eskalationspfade. Gerade bei agentenbasierten Systemen, in denen KI-Agenten eine gewisse Autonomie zugestanden wird, muss das System erkennen können, wenn sich ein Agent „verrennt“ und sich zum Beispiel in einer Endlosschleife im Kreis dreht, ohne zu einem Ergebnis zu kommen. Hier muss das System in der Lage sein, dies zu erkennen und robust einzugreifen. 

Kostentracking spielt ebenfalls eine wichtige Rolle, um Budgetüberschreitungen zu vermeiden – vor allem bei großen Sprachmodellen können die Betriebskosten schnell steigen. Durch regelmäßige Überwachungs- und Forecasting-Mechanismen sowie dynamische Laststeuerung wird das Kostenmanagement unterstützt, damit Budgets nicht unerwartet überschritten werden. Ergänzend sind die Erfassung und Auswertung von Business-KPIs wie Total Cost of Ownership (TCO) z.B. per 1 000 Tokens oder das Tracking des Automatisierungsgrades (Anteil der durch KI übernommenen Arbeitsschritte) sinnvoll, sodass finanzielle Effekte und Effizienzgewinne ebenso transparent sind wie die reinen Betriebskosten. 

Beispielfragen: 

  • Wie sind Infrastructure-as-Code, CI/CD-Pipelines für Modellentwicklung, Prompt-Versionierung etabliert? 
  • Gibt es Strategien, Endlosschleifen oder endlose Rekursionen bei Agenten zu vermeiden? 
  • Inwieweit werden KI-Systeme bzw. Modelle bei Nutzung protokolliert (Logging, Nachvollziehbarkeit)? 
  • Wie wird erkannt, dass das Budget durch KI-Services (zu) schnell ausgeschöpft wird (z.B. Denial of Budget)? 

Compliance

Regulatorik und Datenschutz sind klassische Compliance-Themen, mit denen man im Zusammenhang mit Künstlicher Intelligenz von Beginn an konfrontiert wird. Doch auch ethische Anforderungen wie Transparenz, Fairness und Menschenrechte werden zunehmend regulatorisch bindend. Ethik verschiebt sich damit von einer reinen Werte-Diskussion in den Pflichtbereich des Compliance-Managements. Es gilt, allgemeinen ethischen Maßstäben zu genügen und diskriminierende Tendenzen von KI zu erkennen oder idealerweise gar nicht erst zuzulassen. 

Für den europäischen Raum z.B. muss der EU AI-Act beachtet werden. International empfiehlt es sich, Normen wie ISO/IEC 42001 (Managementsysteme für Künstliche Intelligenz) oder das NIST AI Risk Management Framework heranzuziehen, um einen ganzheitlichen Ordnungsrahmen zu schaffen und Best Practices weltweit abzugleichen.  

Fragen wie „Sind diskriminierende Verzerrungen im Modell möglich?“ oder „Wie sieht es mit Fehl- oder Zusicherungs-Haftung aus?“ lassen sich nicht nebenbei klären. Stattdessen müssen sie von Anfang an mitgedacht werden, damit die Lösung später nicht an regulatorischen Anforderungen scheitert.  

Beispielfragen: 

  • Wie ist die KI-Policy definiert, die den Umgang mit KI-Anwendungen regelt? 
  • Welche Normen (EU AI-Act, DSGVO, ISO/IEC 42001, NIST AI RMF) werden wie erfüllt? 
  • Wie wird mit rechtlichen Risiken bei Falschaussagen umgegangen? 
  • Werden KI-Anwender über den Einsatz von KI informiert? 

Fazit

Die Frage „Wann geht das live?“ ist nur auf den ersten Blick eine reine Terminfrage. In Wahrheit spiegelt sie den gesamten Reifegrad einer KI-Initiative wider: vom robusten Konzept über hochwertige Daten, ein integriertes Sicherheitsdesign, ein durchgängiges Entwicklungs- und Betriebskonzept bis hin zur Einhaltung von Compliance-Anforderungen.  

Es lohnt, sich frühzeitig darüber Gedanken zu machen, was nach dem Proof-of-Concept folgt. Dies gilt insbesondere für KI-Projekte. Entscheidend für den langfristigen Erfolg einer KI-Initiative sind vielmehr z.B. eine sorgfältige Planung des Betriebs, das Qualitätsmanagement sowie gehärtete Compliance- und Governance-Frameworks. 

Hier setzt ein KI-Assessment, das verschiedene Aspekte abdeckt, an: Ein umfassender Fragenkatalog hilft dabei, gezielt Lücken zu identifizieren und priorisiert zu schließen. Da jeder Reifegradcheck nur eine Momentaufnahme ist, wird dieser idealerweise regelmäßig angewendet und kontinuierlich weiterentwickelt, um das Potenzial einer KI-Lösung langfristig auszuschöpfen. 

Interessiert?
Wir freuen uns über Dein Feedback!
Michael Wolf
Head of Technology
On this page