CompuGroup Medical
Synchronizing Healthcare

Erfahren Sie alles über die Vision, Mission sowie die Menschen, die die CompuGroup Medical weltweit prägen. 

Investor Relations
Eine Person tippt mit dem Finger auf ein Tablet-PC mit einer Investor-Relations-Präsentation
Karriere
Eine junge Frau telefoniert mit ihrem Smartphone, während sie einen Tablet-PC hält
CGM Global
Mehrere CGM-Flaggen

Das Ende aller Diktate: KI-Pro­gram­me im Klinik­alltag

5. März 2025 | Josef Ruhaltinger
PC-Tastauren im Mistkübel.
PC-Tastauren im Mistkübel.

KI-gestützte Spracherkennungs-Software verarbeitet Arzt-Patienten-Gespräche, verzichtet auf Trainingsphasen und integriert Befunde ebenso wie Diagnosetools. Trotzdem nehmen die Vorbehalte bei den Nutzern nicht ab.

Janne Cadamuro erfüllt alle Voraussetzungen, die man als Beauftragter für Künstliche Intelligenz in einem Klinikverbund braucht: „Ich bin in Sachen Technologie ein bisschen nerdy.“ In seinem Brotberuf ist der Mediziner (interimistischer) Leiter des Salzburger Universitätsinstituts für Medizinisch-Chemische Labordiagnostik. In seiner Rolle als KI-Beauftragter untersucht er, welche medizinischen Pro­bleme und Bereiche im Universitätsklinikum Salzburg am besten von KI unterstützt werden können. Spracherkennung ist das gängigste Beispiel für angewandte Digitalisierung – speziell in Gesundheitseinrichtungen. Dabei sind Programme, die Diktate in geschriebene Texte transformieren, in Kliniken keine Neuheit: Schon seit Mitte der Neunzigerjahre werden „Speech-to-Text“-Applikationen von den ärztlichen und pflegenden Mitarbeitern genutzt – dies aber in sehr unterschiedlicher Intensität. Erst mit den Möglichkeiten der KI-Technologie wurden aus den trögen Diktatmaschinen nützliche Helfer, die so selbstverständlich zum Klinikalltag gehören wie Seifenspender und Stethoskop. Janne Cadamuro nutzt die Texterkennungs-App nicht nur für sämtliche berufliche Korrespondenz, sondern auch für den privaten Schriftverkehr auf E-Mails und WhatsApp: „Sämtliche Schreibarbeiten gehen deutlich schneller.“ Die Nutzung von Transkriptionssoftware werde in naher Zukunft zur allgemein geübten Zivilisationstechnik: „Ich bin überzeugt, dass meine Kinder nicht mehr Schreibmaschine schreiben lernen. Sie werden ihren Schriftverkehr per Software erledigen.“

 

Unter Hochdruck

Die Überlastung des medizinischen wie pflegerischen Personals ist spätestens seit der Pandemie eine der zentralen Herausforderungen des österreichischen Gesundheitssystems. Eine der großen Hoffnungen auf Linderung des Personalmangels sind die Versprechungen der Digitalisierung: Technik soll helfen, Dinge zeitsparend und effizient zu erledigen.

Der Druck ist hoch: Deutsche Klinikärzte verbringen 44 % ihrer Arbeitszeit mit Bürokratie und Dokumentation, heißt es in einer Studie der deutschen Asklepios-Kliniken aus dem Vorjahr. Umgerechnet auf das Jahr bedeutet dies, dass sie nur bis 24. Juli für die Patienten arbeiten. Den Rest der Zeit bis Jahresende verbringen die Spitalsärzte mit „Screentime“, wie es heute heißt. Im Bereich der Pflege beginnt der „Docu Day“ einen Monat später. Johanna Martin geht davon aus, dass für Österreichs Gesundheitspersonal die Situation nicht anders ist. Für die Geschäftsführerin von 4voice, einem fränkischen Anbieter von Sprache-zu-Text-Lösungen für Krankenhäuser, müssen Spracherkennungstools „den Zeitaufwand für die schriftliche Dokumentation deutlich senken“, so Johanna Martin. Und dies gelinge nur, wenn „die Effizienz der neuen Werkzeuge für alle spürbar“ werde.

Das Geschäft von 4voice, einem Tochterunternehmen des Wiener Unternehmens Speech Processing Solutions, ist die Entwicklung und Anpassung der Transkriptions-Werkzeuge an die IT-Umgebung der Gesundheitseinrichtungen. „Früher sprachen die Ärzte in ein Diktaphon und gaben die Kassette mit Arbeitsanweisungen im Sekretariat ab.“ Nach der Einführung der ersten Spracherkennungs-Software gehörten die Diktier- und Tipp-Prozesse auf einmal der Geschichte an. Die Nutzer mussten sich selbst um die Zusammenführung der Befunde und Bilder kümmern. „Das hat nicht alle in der Zielgruppe überzeugt“, bleibt Martin diplomatisch. Mit der Entwicklung leistungsfähiger Computer-Hardware haben sich die Rahmenbedingungen verschoben. Das Geschäft mit Spracherkennung habe sich durch die KI-Technologie massiv verändert, so Johanne Martin. Die Software hole sich automatisch, was es für einen Entlassungsbrief oder einen Befund brauche: „Die Werkzeuge sind bedienungsfreundlicher, leistungsfähiger und präziser geworden.“

 

Neuronale Netzwerke wissen, was Sprecher sagen wollen

Deep Learning ist eine Art Subkategorie der Künstlichen Intelligenz. Deep Learning ahmt nach, wie das menschliche Gehirn funktioniert. Wahrscheinlich ist die wichtigste Unterscheidung der Deep-Learning-Modelle im Vergleich zu früheren, auf maschinellem Lernen basierenden Spracherkennungs-Modellen der riesige Datensatz, der im Training verwendet wird. Deep Learning erfordert Tausende von Stunden an Daten, um Computer effektiv zu lehren, das zu tun, was Menschen durch Beispiele und Erfahrungen lernen. Dabei werden Daten aus einer Vielzahl von Quellen gesammelt, die von Lexika, Zeitschriften bis hin zu anonymisierten Patientenbefunden reichen. Die Deep-Learning-Techniken, insbesondere tiefe neuronale Netzwerke (DNNs), haben die Genauigkeit der Spracherkennungsausgaben erheblich verbessert. Im IT-Bereich ist es nicht vermessen, von Quantensprüngen zu sprechen. Selbst bei den kompliziertesten Terminologien und stärksten Akzenten können neuronale Netze ableiten, was kommuniziert werden soll. Mussten bis vor einigen Jahren am Anfang jeder Implementierung ganze Märchen vorgelesen werden, um die Software an Stimme und Ausdruck des Nutzers zu gewöhnen, so entfällt heute jedes Training. Die neuen Spracherkennungs-Produkte reagieren sogar auf Undeutlichkeiten oder unlogische Versprecher. Wenn sie etwas nicht verstehen, prüft das Netzwerk auf Basis des bislang Gesagten Tausende von Möglichkeiten, um den logischsten Ausdruck zu generieren.

Deep-Learning-Programme extrahieren aus dem Gespräch die verschiedenen Positionen, die für einen Arztbrief, Befund oder ein Gutachten vordefiniert wurden, und holen sich auf Anforderung – sofern es die Einbindung in das Klinikinformationssystem zulässt – Befunde aus dem Labor oder der Radiologie.

Die Premium-Produkte aus dem Spracherkennungs-Bereich erledigen dies in Echtzeit (Live Processing). Der Nutzer sieht während des Gesprächs live die Text-Zusammenfassung über den Monitor huschen – und korrigiert, wo er es für nötig hält. Der Rückzug ins Arztzimmer und nachträgliche Eintragungen entfallen, was im Klinikalltag einen deutlichen Zeitvorteil bringt. Bei diesen sogenannten Ambient-Lösungen lauscht die KI – mit Zustimmung der Gesprächspartner – passiv mit und erstellt automatisch Dokumentationen aus dem Gespräch. Gleichzeitig wird dafür gesorgt, dass die gesprochene Sprache in gefällige Formulierungen gegossen wird. Die absoluten Top-Leister unter den Spracherkennungstools verbinden sogar Anamnese und Befunde l zu einer Diagnoseempfehlung an den Arzt oder die Ärztin.

Was nach Science-Fiction klingt, wird bereits am Markt angeboten oder steht kurz vor der Marktreife. Ein 2016 gegründetes Start-up mit Sitz in Kopenhagen gibt vor, was die Zukunft bringt. Corti wurde ausschließlich mit medizinischen Daten trainiert – darunter 100 Millionen Interaktionen mit echten Patienten. Geht es nach dem Gründer Florian Schwiecker, soll das Werkzeug die Grundlage für medizinische KI-Anwendungen auf der ganzen Welt werden. 

Corti verkauft nicht nur KI-Assistenten, sondern auch das medizinische Wissen ihres Sprachmodells. Diesen umfassenden Datenpool können Krankenhäuser und Pflegeheime mit den spitalseigenen Informationen verfeinern. 

Die KI hört während eines Telefonates oder persönlichen Gespräches zu und macht Vorschläge in Echtzeit, wie es weitergehen soll. Die Software ist nach Anwenderberichten in der Lage, anhand des Tonfalls zu erkennen, ob der Anrufer gerade einen Herzinfarkt hat. Diese Kompetenzen machen entsprechenden Eindruck: Corti hat alle nationalen Notrufzentralen in Schweden mit einem KI-Assistenten ausgestattet.

Die Wissensbasis ist dabei immens: Das Start-up zeichnete zusammen mit seinen Partnern über Jahre Gespräche aus der Praxis auf – vom Notruf über den Besuch des Rettungsdienstes beim Patienten bis hin zur Behandlung in der Klinik. Die Software speichert die Daten der Patienten auf europäischen Servern – die in jeweils dem Land stehen, wo sie auch erhoben werden. Sämtliche Informationen werden vor dem Transfer verschlüsselt und sicher gespeichert. Die Corti-Gründer versichern, sich aus Datenschutzgründen früh mit dem legislativen Arm der EU abgestimmt zu haben, um Corti an die Vorgaben aus der KI-Verordnung anzupassen.

Eines der herausragenden Merkmale von Corti ist die Unterstützung bei der Entscheidungsfindung in Echtzeit. Dazu analysiert die Applikation anhand der klinikinternen elektronischen Patientenakte die vorhandene Krankengeschichte des Patienten. Die Software kombiniert die Informationen früherer Befunde mit den Details aus dem Arzt-Patienten-Gespräch, erkennt Muster und hebt potenzielle Symptome hervor, die leicht unbemerkt bleiben können. Tests von Corti zufolge kann die KI in 40 Prozent der Fälle die Diagnose des Arztes oder der Ärztin optimieren.

 

Spracherkennung ist erst der Anfang

Transkriptionsmodelle machen nur Sinn, wenn sie Zeit und Ressourcen sparen. Immer wenn die Effizienzgewinne dünner ausfallen als erhofft, gibt es unter den Klinikbetreibern lange Gesichter. So beschreibt Bernhard Poel eine seiner markantesten beruflichen Erfahrungen. Er ist Geschäftsführer von AlsterText. Sein Unternehmen implementiert – wie 4voice – die Sprachmodelle der Tech-Riesen in den Spitälern und passt sie den Notwendigkeiten und Fachrichtungen an. „Spracherkennung ist nützlich, aber nur ein Zahnrad im großen Getriebe der Dokumentation.“ Die Erkenntnis, dass keine Schreibkräfte mehr gebraucht werden, werde rasch übertüncht von der Erfahrung, dass die Ärzte alle Aufgaben selbst übernehmen müssen. Daher müssen die Ergebnisse deutlich besser sein, als sie vor Einsatz der automatisierten Spracherkennungs-Tools waren. „Ein automatisches Lektorat ist unverzichtbar“, erzählt Poel von der Anwenderrealität. Die Software müsse „Arztbriefe und Befunde liefern, die automatisiert medizinisch korrekte Sprache erzeugt“. Fast noch wichtiger sei „der Zugriff auf die Datensilos, die in allen Kliniken historisch gewachsen sind.“ Ein großer Teil der Arztbriefe bestehe aus bereits existierenden Informationen – Laborwerte, CT-Befunde, Pathologieberichte. Aber viele Krankenhaus-Informationssysteme (KIS) seien nicht in der Lage, diese Informationen automatisch zu bündeln. Das medizinische Personal muss die Befunde meist persönlich und manuell zusammensuchen – ein Vorgang, der alle Beteiligten nervt. „Die Einführung einer Spracherkennung ist nicht mehr als eine Brückentechnologie“, pocht Poel auf einen breiteren Zugang zu einem klinischen Dokumentationsverständnis: „,Die Zukunft liegt in einer Kombination aus Spracherkennung, intelligenten Lektoraten, automatischer Befundzusammenführung und strukturierten Workflows."

Österreichs Klinikverbünde reagieren mehrfach auf die großen Entwicklungsschritte in der Spracherkennung. Der Ober­österreichische Gesundheitsverbund mit sechs Kliniken und 5000 Betten ist im Begriff, ab Juli ein Pilotprojekt umzusetzen, bei dem eine integrierte Applikation inklusive Ambient-Funktion – und KIS-Integration getestet wird. Humayoun Kabir, IT-Chef des ÖOG, leitet diesen „Proof-of-Concept“: „Wir suchen Zeitersparnis für Ärzte und Pflegende und wollen mehr Sicherheit, weil Fehler in der Übertragung reduziert werden.“ 

Er nennt ein Beispiel: „Bisher muss der Arzt für einen Patienten handschriftlich ein kleines Blutbild anordnen.“ Die Anweisung werde später von einer Krankenschwester ins System eingetragen, damit die Untersuchung tatsächlich durchgeführt wird. „Künftig setzt das System die Befehle direkt um“, versichert der CIO des Oberösterreichischen Gesundheitsverbunds. Dazu werden Daten aus sämtlichen Häusern – aus KIS, aus den Laboren, aus den Intensivstationen – in einem zentralen Speicher zusammengefasst. Kabir und sein Team haben das cloudbasierte System – „wir haben hier intensive Gespräche über den Datenschutz geführt“ – im englischsprachigen Raum getestet. Für ihn steht fest: „Das machen wir.“ Alle Ärzte und Verwaltungsmitarbeiter, die eine Lizenz benötigen, werden auch eine kriegen. Für den Bereich der Pflegemitarbeiter werden Verhandlungen um eine Gruppenlizenz geführt.

Die Oberösterreicher sind nicht die einzigen, die nachrüsten. Auch der Wiener Gesundheitsverbund ist dabei, den Beschaffungsprozess für eine cloudbasierte Spracherkennungs-Software auf den Weg zu bringen. Und Janne Cadamuro von den Salzburger Landeskliniken bereitet – gemeinsam mit Kollegen von der IT – ein Upgrade für das derzeit gebrauchte Transkriptionsmodell vor –, wenn auch aus speziellen Motiven. Die aktuelle Software wird in ihrer lokal gehosteten Variante (on-Premise) nicht mehr länger serviciert. Cadamuro erklärt, warum er sich nach Neuem umschaut: Ein Ausweichen auf eine cloudbasierte Lösung entspräche nicht den Datenschutzvorgaben der SALK.

Quelle: ÖKZ 1/2025, 66. Jahrgang, Springer-Verlag.

Verwandte Artikel
Junge Ärztin nutzt die digitale Spracheingabe für schnelle Befundung.
Junge Ärztin nutzt die digitale Spracheingabe für schnelle Befundung.
Mehr Digitali­sierung im Gesund­heits­wesen: Sprach­techno­logie ist ein essen­zieller Teil davon

30 bis 50% der Arbeitszeit für Administation ? Ein Vorantreiben der ...

PowerMic Mobile von Nuance.
PowerMic Mobile von Nuance.
KI-Sprach­erken­nung: „Die Effizienz­steigerung ist enorm“

Johannes Pfaff, Vorstand des Universitätsinstituts für ...