Hallo,ich befasse mich gerade mit Text Mining auf Arztbriefen und soll einen Prototypen bauen, der die Diagnosen (oft ja in einer Auflistung) extrahiert und auch versucht, die Symptome inklusive Kontext zu erkennen , d.h. auch möglichst Formulierung wie "Es besteht Verdacht auf [Erkrankung]", "[Erkrankung] ist auszuschließen" etc.
Als Output soll eine strukturierte XML-Datei mit Diagnosen/Symptomen und Kontext entstehen.
Das ganze soll auf einer Testmenge von 5-6 Arztbriefen funktionieren.
Ich habe mir dafür recht neue Arztbriefe besorgt, die in ihrer Struktur alle ähnlich sind (was ja schon mal gut ist, anscheinend gibt es doch mittlerweile mehr oder weniger einen "Standard")
Ich habe viel über das nötige Preprocessing (Tokenisierung,POS Tagger,Stopplisten) der Dokumente gelesen und auch weiß ich was ICD-Schlüssel, MesH (Thesaurus) etc. sind.
Aber ich habe nun leider nicht einmal einen Ansatz, wie ich an die Sache rangehen soll.
Die Diagnosen und dazugehörigen ICD-Schlüssel sollte ich irgendwie hinkriegen, aber für die Symptome gibt es soviel ich weiss keine Klassifikation und die Erkennung vom Kontext sehe ich auch als schwieriges Problem, auch wegen der medizinischen FachspracheKennt sich hier vllt jemand gut mit Text Mining aus und hat Tipps parat?
Ideen: Diagnosen könnte ich wohl grob schon mal hinbekommen, indem ich eine Tokenisierung vornehme, das Mark-Up "Diagnosen:" suche und alle folgenden Nomen mal im Thesaurus (z.B. MesH-Datenbank) suche. Ich könnte außerdem einen regulären Ausdruck benutzen um ICD-Schlüssel zu finden, damit die Diagnosen validieren oder die Struktur damit anreichern kann Bei Symptomen habe ich leider überhaupt keine Idee, weil eine Klassifikation fehlt. Vielleicht könnte ich aber eine Liste erstellen die erst einmal nur die Testmenge abdeckt. Ich bräuchte dann auch eine Liste, die alle Kontext-Formulierung enhält, denke ich