Wie Entwickler*innen den Einsatz der KI bei ihrer täglichen Arbeit bewerten

Entwicklerin beim Coden mit KI-Tool

Gerade sind die Ergebnisse einer Umfrage unter Entwickler*innen zu ihren Erfahrungen mit dem täglichen Einsatz von KI-Tools veröffentlicht worden. Wir blicken auf die Umfrage und gleichen die Ergebnisse mit unseren ganz persönlichen, subjektiven Erfahrungen ab.

Das Unternehmen Sonar, das selbst Services zur KI-gestützten Codeanalyse vertreibt, hat 1.100 Developer gebeten, im Rahmen einer Umfrage über Art und Umfang, sowie über die Vorteile und Nachteile ihrer KI-Nutzung zu berichten.

Die interessantesten Umfrageergebnisse zur KI-Nutzung in Kürze

1. Der Einsatz von KI-Code-Tools ist bereits weit verbreitet

Für den überwiegenden Teil der Entwickler*innen ist der Einsatz von KI-Tools zur Codeerstellung inzwischen zur täglichen Normalität geworden. Dabei werden laut der Umfrage KI-Coding-Tools in vielen Bereichen der Softwareentwicklung genutzt und das nicht nur für einfache Aufgaben:

Prototypen: 88 % der Entwickler setzen KI hier ein
Interne, unkritische Software: 83 %
Code für Kundenanwendungen: 73 %
Code für geschäftskritische Systeme: 58 %

Bei der Nutzung dominieren bekannte KI-Assistenten und Code-Generatoren:

  • GitHub Copilot: von 75 % genutzt
  • ChatGPT-basierte Tools: 74 %
  • Claude/Claude Code: 48 %
  • Google Gemini / Duet AI: 37 %

Weitere Tools wie Cursor, Perplexity oder OpenAI Codex folgen, wenn auch mit geringeren Anteilen.

Diese Vielfalt zeigt, dass Entwickler nicht nur ein einzelnes Tool verwenden, sondern häufig mehrere Plattformen kombinieren, um unterschiedliche Aufgaben zu lösen. Zusammen mit den Einsatzbereichen betrachtet, läßt sich hervorheben, dass KI-Assistenten längst nicht mehr nur Spielerei sind, sondern auch dort eingesetzt werden, wo Fehler ernsthafte Folgen haben können.

2. Das Vertrauen in den KI-generierten Code ist gering

Ganze 96% der Befragten sind der Meinung, dass der durch künstliche Intelligenz erstellte Code funktional nicht ganz korrekt ist. Das Vertrauen in den generierten Code ist somit sehr gering. Aber nur 48% geben an, den Code deshalb immer vor dem Deployment zu reviewen, zu testen und zu optimieren!

Oftmals wird von der KI nicht korrekter Code geliefert und die Fehlerbehebung nimmt Zeit in Anspruch.

  • Code sieht oft korrekt aus, ist aber nicht erprobt und vertrauenswürdig: 61% Zustimmung
  • Ich muss eine beträchtliche Menge Zeit darauf verwenden, falschen Code zu verbessern und redundanten Code zu optimieren: 61% Zustimmung
  • Der Code-Review von AI-generated Code ist anspruchsvoller und schwieriger als die Überprüfung von Code menschlicher Teamkollegen: 38% Zustimmung

Wie steht es im Reinblau-Umfeld um den Einsatz von KI-generiertem Code?

Wenn ich von meiner eigenen, rein subjektiven Einschätzung und dem ausgehe, was mir die Kolleg:innen im nahen und weiteren Umkreis über ihre Erfahrungen mitteilen, lässt sich sagen, dass die Umfrage unsere praktische Realität sehr gut abbildet.

Hier unsere wichtigsten Beobachtungen:

  1. Der Einsatz von KI-Code-Tools ist zur täglichen Routine geworden. Welche Tools dabei benutzt werden und für welche Aufgaben, wird noch sehr unterschiedlich gehandhabt.
  2. Der erzeugte Code ist oftmals fehlerbehaftet. Das beginnt bei kleinen, sehr schwer zu findenden Fehlern und geht bis hin zu vollständig halluzinierten Antworten. Um gute Ergebnisse zu erzielen, muss der Prompt in der Regel in mehreren Wiederholungen verfeinert werden. Zudem findet sich häufig redundanter oder wenig optimierter Code, der entweder händisch oder in weiteren KI-Schleifen verbessert wird.
  3. Das Debuggen – egal ob mit weiterer KI-Unterstützung oder mit herkömmlichen Tools – nimmt oftmals viel Zeit in Anspruch.
  4. Auf keinen Fall kann der generierte Code ohne Review und Tests auf Produktivsysteme deployed werden.
  5. Relativ gut lässt sich die KI für Dokumentation und die schnelle Erstellung von Prototypen verwenden. Dies ist im Übrigen eine Beobachtung, die auch in der Umfrage von Sonar geteilt wird.
  6. Der Lerneffekt ist deutlich geringer, als wenn der Code mit eigenem Wissen und herkömmlicher Internetrecherche geschrieben wird. Lässt man sich von der KI den Code nochmal erklären bzw. kommentieren und hinterfragt das Ergebnis, so ist zwar der Lerneffekt höher, die ursprüngliche Zeitersparnis nimmt jedoch wieder ab.

Häufig führt dieses letzte Thema zu angeregten Diskussionen in der Community darüber, inwiefern KI-Tools mittelfristig dazu führen werden, dass es keine Senior-Entwickler und Entwicklerinnen mehr gibt, die ein tiefgreifendes Verständnis ihrer Software haben, und ob die voranschreitende Entwicklung von KI-Agenten dazu führen wird, dass übergeordnete Aufgaben, die ein tiefgehendes Verständnis erfordern, zukünftig von diesen Agenten übernommen werden können.

Bezüglich der Produktivitätssteigerung durch KI bei Senior-Entwicklern gab es bereits im letzten Jahr eine Untersuchung (METR-Studie) mit dem etwas überraschenden Ergebnis, dass durch KI keine Zeitersparnis erzielt wurde, sondern im Gegenteil von den Teilnehmenden mehr Zeit zur Lösung fortgeschrittener Programmieraufgaben benötigt wurde.


Aside: Das verwendete Bild habe ich mit zwei Iterationen des Prompts von Chat-GPT erstellen lassen. Aufgewendete Arbeitszeit ca. 5 Minuten, einschl. anschließendem, manuellem Zuschnitts ca. 10 Minuten. Übertragen auf meine Codingerfahrungen: für einen ersten Prototype (Scribble) okay, für eine Produktivumgebung unbrauchbar.

ki coding variante