KBV-Daten als Excel-Datei aufbereitet

Leserin @Delia hat aus den umstrit­te­nen Daten der KBV eine Excel-Datei erstellt. Sie schreibt:

»Anbei das Zipfile mit der Excel-Datei und das Skript (lei­der ziem­lich groß, das Zippen nützt nicht viel).

Um letz­te­res lau­fen zu las­sen, braucht man pdft­o­text (für Debian-Linux im Paket popp­ler-utils, für ande­re Distributionen/Betriebssysteme gibt's das bestimmt auch), um die Daten aus dem PDF zu extra­hie­ren. Für das Skript wird ein eini­ger­ma­ßen aktu­el­les Python benö­tigt und das Paket xlsx­wri­ter (im Betriebssystem oder in einem vir­tu­al envi­ron­ment); dann soll­te genau die Excel-Datei herauskommen.

Daß die KBV die Dateien als PDF ver­schickt und die Nullen aus­ge­blen­det hat, könn­te man schon fast als Bösartigkeit inter­pre­tie­ren …«

Hier ist die Datei zu laden (3,3 MB). Vielen Dank!

20 Antworten auf „KBV-Daten als Excel-Datei aufbereitet“

  1. In der PDF ist ersicht­lich das die­se aus einer Excel Datei erstellt wur­de. Die KBV woll­te wohl fäl­schungs­si­cher als PDF über­mit­teln. Vermutlich fehlt aber eine digi­ta­le Signatur

  2. Danke @Delia !! Ich kann die Excel öffnen. 🙂

    AA-AY ist KBV- "Datenpaket 3 " 

    B‑Z ist KBV " Datenpaket 2 " 

    Richtig soweit ?
    —————————-

    Sprunghafter Anstieg 2021 von „plötz­li­chen Toten“ – Analyse der KBV-Daten und der Kritiken
    https://​www​.you​tube​.com/​w​a​t​c​h​?​v​=​n​q​t​E​B​U​L​P​LAY

    Ab Min. 2, die "Datenpakete "
    —————————————
    Schon mal kurz drü­ber­ge­schaut, mit dem Ziel die " Datenpakete " zu verstehen.

    Aus der Excel: 

    AY14781 = 341891 (Q1 2022)

    T 88.1 Sonstige Komplikationen nach Impfung [Immunisierung],anderenorts nicht klas­si­fi­ziert. Zeigt für 1. Quartal 2022, (" Paket 3" alle ICD-Codes aller Versicherten ) die Summe 341891 Fälle.

    Für 2021 wur­den in die­sem "Paket 3", ent­spre­chend Anforderung, "Paket 1" (Alle Versicherten die 2021 eine Impfnebenwirkung hat­ten ) herausgenommen.

    AX14781 = 22664 (Q4 2021)
    AW14781 = 26872 (Q3 2021 )
    .
    .
    Entsprechend unauf­fäl­lig (kei­ne gro­ße Abweichung zu den Vorjahren) sind die Zahlen für 2021. Wie zu erwar­ten, wenn "Paket 3" ent­spre­chend der Anforderung über­mit­telt wurde. 

    Spannend, mal sehen, was sich ermit­teln lässt. Ich hof­fe die Excel wird viel­fach genutzt, beson­ders von Menschen mit Statistik-Skills. Meine sind recht bescheiden.

    1. @Info
      Ich habe den Tabellenteil den merk­wür­di­ge Kennzeichnungen mit der Bezeichnung "no" mal ein­fach weg­ge­las­sen, also nur den Tabellenteil von a bis z ver­wen­det und sie­he da tut sich was Erstaunliches. So kommt Tom lau­sen bei der Codierung T88.1 (den Impfnebenwirkungen ) auf 1.899376 Fälle. Ich fin­de aber 2096290
      Ich hat­te mich schon gewun­dert, dass auf der Seite https://​corih​.de/​K​B​V​-​D​a​t​e​n​/​i​n​d​e​x​.ph der Anstieg der Herzmuskelentzündungen so nied­rig ist, näm­lich etwa 34% für den Code I40.8 (son­sti­ge Myokarditis).
      Sucht man den Code in der Exceltabelle auf, so fin­det man einen Anstieg in 2021, der im Sommer 21 das fünf­fa­che der Vorjahre erreicht. Dasselbe Bild bei I40.0, I40.1 und I40.9.
      es scheint, dass bei der KBV irgend­je­mand Mist gebaut hat. Den Tabellenteil, der mit no gekenn­zeich­net ist kann man weg­schmei­ßen. Was der angeb­lich ent­hal­ten soll, kann man sich anhand der rest­ta­bel­le selbst zusam­men­stricken. Der Rest scheint o.k. zu sein.

      1. @Dr. C.: Danke für den Kommentar.

        Der Tabellenteil mit "no" ist, so glau­be ich, jenes "Paket 3".
        Der Tabellenteil ohne "no" Paket 2. Ich glau­be nicht das " Paket 3" unbrauch­bar ist. 

        "Paket 1: Bitte fil­tern Sie alle Versicherten, die in 2021 eine ICD-Kodierung zu Impfnebenwirkung hat­ten. Hierfür sind die Kodierungen T88.1, T88.0, U12.9 und Y59.9 anzuwenden.

        Paket 2: Bitte listen Sie die Häufigkeit aller ICD-Codes der Versichertenmenge aus Paket 1 für den Zeitraum 2016 bis 2021, falls antei­lig vor­lie­gend auch für 2022, nach Quartalen auf. Die Datenabfrage soll mit V und G erfolgen.

        Paket 3: Bitte listen Sie die Häufigkeit aller ICD-Codes aller Versicherten – ohne die Versichertenmenge aus Paket 1 – für den Zeitraum 2016 bis 2021, falls antei­lig vor­lie­gend auch für 2022, nach Quartalen auf. Die Datenabfrage soll mit V und G erfolgen. "

        https://fragdenstaat.de/anfrage/daten-zu-diagnosecodes-zu-den‑2–478-526-kassenpatienten-mit-impfnebenwirkungen-bezugsjahr-2021/

        "..ich hat­te mich schon gewun­dert, dass auf der Seite https://​corih​.de/​K​B​V​-​D​a​t​e​n​/​i​n​d​e​x​.ph der Anstieg der Herzmuskelentzündungen so nied­rig ist, näm­lich etwa 34% für den Code I40.8 (son­sti­ge Myokarditis). .."

        Genau dar­über wun­de­re ich mich auch. 

        Ich habe sowohl in " Paket 3" als auch in Paket "2" nach einem Anstieg von ICD-Codes gesucht, die man als Impfnebenwirkung viel­leicht erwar­ten könn­te. ( Myokarditis, Krankheiten des auto­no­men Nervensystems, Tachykardie, Herzgeräusche, Fatigue, … ) https://​www​.icd​-code​.de/

        Und konn­te zwar einen Anstieg fest­stel­len, aber kei­nen sehr auf­fäl­li­gen. Woran liegt das?

        Folgende These dazu: Impfnebenwirkungen wur­de durch die Ärzte prä­zi­se und sorg­fäl­tig ("rich­tig") erkannt und codiert. Und zwar als Impfnebenwirkungen, also T88.1, T88.0, U12.9 und Y59.9.
        Wenn es so ist, das sorg­fäl­tig codiert wur­de, dann ja wohl auch beim Sudden Death Adult Syndrome R96.0, R96.1.
        Ist die Vergabe die­ses Diagnosecodes eine Art stil­ler Hinweis? Kann man noch deut­li­cher sagen, das man etwas weiß? Wissen die­se Ärzte es, wagen aber nicht öffent­lich dar­über zu sprechen? 

        Ich kann der Argumentation im Video von "Actuarium " ( https://​www​.you​tube​.com/​w​a​t​c​h​?​v​=​n​q​t​E​B​U​L​P​LAY ) inzwi­schen umfäng­lich folgen.

      2. @ Dr.C.
        "Ich fin­de aber 2096290"

        jepp aber 2016–2019 konn­ten die Corona Impfstoffe wohl kaum mit­wir­ken –fal­len also bei der Auswertung von lau­sen raus
        2096290 = Summe T88.1 2016 – 2022Q1 ohne no

    2. Genau in die Wunde ?!
      T88.1 no 2021 /1 – 4 müss­ten in der Theorie ja null sein, da Bestandteil von Datenpaket 2
      mich wür­den die Abfrage Codes der Excel Datei
      cin_groupy_all_qtr_icde_2022-11–23 (002).xlsx erstellt von JVogel echt inter­es­sie­ren ‑denn die Erklärung des "Mathematikers" in dem "hoch­qua­li­fi­zier­ten Video" ( aus­sa­ge von AA in einem Kommentar oder war es Artikel ?!) Fehlerrauschen – erge­ben bei die­ser Abfrage einer Datenbank wenig bis gar kei­nen Sinn .…

      Aber das sind alles Fragen die nur "das KBV" beant­wor­ten kann .……

      Dank für die ExcelDatei 

      Tip am Rande Erste Spalte und erste Zeile fixie­ren – dann sieht man die ICD´s und Jahres/quartals zah­len und muß nicht mit z.B. ax14781 etc. extra umdenken

      1. @stefan: Ja, das "Rauschen", wie der Mathematiker im Video es nennt, ist schon unheimlich.
        Vielleicht hat auch das vom ZI ange­führ­te " Kohorten-Effekt" ‑Argument doch eine Substanz, die ich nicht erken­ne. Ideen? 

        " .. T88.1 no 2021 /1 – 4 müss­ten in der Theorie ja null sein, da Bestandteil von Datenpaket 2 .."

        Kann es sein, das es in "Paket 3" (no) eine Menge von Versicherten gibt, die T88.1 hat­ten aber eben nicht in 2021? Und des­we­gen wer­den deren Diagnosen gezählt und die Summe 2021 ist des­we­gen eben nicht "0"?
        Denn in "Paket 3" wer­den ICD-Codes ange­for­dert, wäh­rend in "Paket 1" nach Versicherten gefil­tert wird. Also mich über­for­dert die­se Denksportaufgabe gera­de. Ideen?

    3. @info @stefan @Dr. C. @Delia

      Kann ein Versuch, sich der Haftung zu ent­zie­hen, die Lösung sein? Diese Praktiken sind nicht neu und wer­den auch nicht gleich­mä­ßig, son­dern nur spo­ra­disch eingesetzt.

      "Ein Insider packt aus: Wie aus einem Impfschaden eine psy­cho­so­ma­ti­sche Störung wer­den soll
      Freigeschaltet am 19.12.2022 um 07:17 durch Sanjo Babić "

      "Ärzte drän­gen auf psy­cho­so­ma­ti­sche Untersuchung"
      "Als Diagnosen wur­den schließ­lich T88.1 (Sonstige Komplikationen nach Impfung [Immunisierung], andern­orts nicht klas­si­fi­ziert), G93.3 (Chronisches Müdigkeitssyndrom) und F48.0 (Neurasthenie) gestellt."

      1. @Benjamin: Bei den KBV Daten fällt mir auf, das knapp 3 Mio. Impfnebenwirkungsdiagnosen ver­ge­ben wur­den, aller­dings der Anstieg bei ande­ren (neben­wir­kungs­be­ding­ten) Diagnosen nicht so stark aus­fällt wie viel­leicht zu erwar­ten gewe­sen wäre. Siehe Kommentare oben ( Dr. C).
        Denkbar, das vie­le Diagnosen nicht im ersten Schritt gestellt wer­den, son­dern erst bei spä­te­ren Untersuchungen ( Daten von 2022 ) .

  3. @Stefan und @Info
    Mir ist an dem Datensatz noch etwas auf­ge­fal­len. Vergleicht man eine Zeile des gesam­ten Datensatzes mit dem Teil an Spalte 26, z.B. für den Code T88, dann­dieht man, dass der Peak zwei!mal auf­taucht. Möglicherweise hat Lausen die Werte addiert, so dass der Zuwachs der plötz­lich ver­stor­be­nen dop­pelt so hoch wird.
    Heute nicht mehr aber mor­gen wer­de ich ver­schie­de­ne Zeilen aus­su­chen und die ersten 25 Werte einer Zeile sowie die zwei­ten 25 in einer Graphik zusam­men plot­ten. Bin echt gespannt, aber ich glau­be hier fin­det sich des Rätsels Lösung.

    1. @Dr. C.:

      " .. Vergleicht man eine Zeile des gesam­ten Datensatzes mit dem Teil an Spalte 26, z.B. für den Code T88, dann­dieht man, dass der Peak zwei!mal auftaucht. .."

      Bei Spalte 26 ("Z") endet "Datenpaket 2 (ohne no)" und bei Spalte 27 ("AA") beginnt "Datenpaket 3 (no) ". Beide Pakete zei­gen die glei­chen Phänomene, des­halb zwei Peaks.

      Gutes gelin­gen beim Auswerten, bin gespannt. Die Peaks aus bei­den Paketen für alle Diagnosen neben­ein­an­der zu stel­len ist bestimmt aufschlussreich.

  4. @Dr.C.
    Die Spaltenüberschrift „2016/1“ steht für „code_20161“ im Original, „no 2016/1“ für „nocode_20161“. Das bezieht sich offen­bar auf die ange­frag­ten Pakete („nocode“ für kei­ne ICD-Codierung 2021). Die Idee (sie­he Update zu https://​www​.coro​dok​.de/​a​f​d​-​z​a​h​l​e​n​-​i​n​t​r​a​n​s​p​a​r​e​n​te/), die Pakete zu addie­ren, erscheint mir ganz gut.

    @stefan
    Das Fixieren der ersten Zeile und Spalte ist in der Tat sehr hilf­reich. Im Skript steht es auch drin (freeze_panes), aber die hoch­ge­la­de­ne Excel-Datei hat es lei­der noch nicht gehabt, sorry.

    1. @Delia
      Was die AFD da ange­for­dert hat ist wirr und was die KBV gelie­fert hat ist noch wirrer.
      Erstens hat die AFD 3 Pakete ange­for­dert. Erkennbar sind aber nur 2 Pakete. Man kann also nur spe­ku­lie­ren, ob das Paket mit der Spaltenbezeichnung "on" Paket 3 sein soll und Paket 1 nicht gelie­fert wur­de. Paket 3 müss­te dann alle Diagnosen der Fälle beinhal­ten, die 2021 kei­ne Nebenwirkungen hat­ten und Paket A bis Z die­je­ni­gen, die Nebenwirkungen hat­ten. Das kann aber auch nicht sein, weil in bei­den Paketen die Coronaspezifische Nebenwirkung U12.9 auf­ge­li­stet sind, dazu noch ver­schie­de­ne Häufigkeiten.

      Hier hilft nur die Forderung an die KBV einen Datensatz zu lie­fern, der alle Diagnosedaten aller Versicherten für die Jahre 2016–2022 enthält.

      Mist haben hier offen­bar alle gebaut, die AFD, weil sie gefil­ter­te Daten ange­for­dert hat, die KBV, weil sie etwas ande­res gelie­fert hat und Tom Lausen, der das offen­bar nicht bemerkt hat.

      1. " .. Erkennbar sind aber nur 2 Pakete. .."

        Genau, Paket 1 ist nicht vor­han­den. Vielleicht wegen der Formulierung in der Anforderung:

        Paket 1: Bitte fil­tern Sie ..
        Paket 2: Bitte listen Sie ..
        Paket 3: Bitte listen Sie ..

        ".. Paket 3 müss­te dann alle Diagnosen der Fälle beinhal­ten, die 2021 kei­ne Nebenwirkungen hat­ten und Paket A bis Z die­je­ni­gen, die Nebenwirkungen hatten. .."

        In Paket 3 wer­den alle Diagnosen aller Versicherten angefordert,
        ohne die Versichertenmenge aus Paket 1. Es gibt offen­bar eine Teilmenge, die durch die Formulierung der Anforderung des Pakets 1 nicht abge­deckt ist und die des­halb in Paket 3 geli­stet ist.

        ".. Hier hilft nur die Forderung an die KBV einen Datensatz zu lie­fern, der alle Diagnosedaten aller Versicherten für die Jahre 2016–2022 enthält. .."

        Ja, das wäre bes­ser. Ich ver­mu­te aber die Datensätze sind ok, aus ihnen lässt sich eini­ges ablesen.

  5. Ui. Ich habe die Tabelle noch ein­mal neu erstellt, die Pakete zusam­men­ad­diert und für die letz­ten fünf Quartale die Zahlen ver­gli­chen mit einer Vorhersage (per linea­rer Regression) aus den Jahren bis 2020. Von eini­gen fal­schen Alarmen abge­se­hen (die man leicht erken­nen kann, z.B. weil die Zahlen sehr nied­rig sind und daher stark streu­en), blei­ben im wesent­li­chen nur die plötz­li­chen und uner­war­te­ten Todesfälle übrig (R96.0, R96.1, R99), bei denen die Auswertung anschlägt, und bspw. T88.1 (com­pli­ca­ti­ons fol­lo­wing immu­nizati­on), O21.8 (huch: Schwangerschaftserbrechen).

    @aa: Wenn Du noch Platz auf dem Server hast, kann ich Dir die­se Tabelle mit den Markierungen auch noch schicken.

    1. @Delia
      Ich glau­be eher, dass man die Vereinigungsmenge bil­den muss. Die Tabellen ent­hal­ten bei­de die Daten von 1/16–1/22. Die Menge Zahlen der zwei­ten Menge ent­spricht einer Teilmenge des Gesamtdatensatzes. Die Matrix besteht aus 25 Quartalen. Die Menge von A bis Z ent­spricht eben­falls einer Teilmenge des Gesamtdatensatzes, näm­lich die Gesamtmenge abzüg­lich der Menge der Impfnebenwirkungen des Jahres 21. Die Menge hat Quasi ein Loch, in dem die Menge der Impfnebenwirkungen her­aus­ge­schnit­ten wur­de. Natürlich ste­hen an glei­cher Stelle unter­schied­li­che Zahlen. Die Vereinigungsmenge bekommt man durch fol­gen­den Algorithmus:
      Für alle X und Y gilt:
      C=A;
      If B>A then C=B;
      Return

      Das bedeu­tet, man muss eine drit­te Tabelle gene­rie­ren, die die­se Bedingung erfüllt. Leider habe ich noch nie die Logikfunktionen von Excel benutzt.

      Ich schlie­ße auch nicht aus, dass es sich um die Schnittmenge handelt. 

      Vielleicht wird das Ganze dann plausibler

  6. @Dr.C.
    Laut der Anfrage müß­te Paket 1 „alle Versicherten, die in 2021 eine ICD-Kodierung zu Impfnebenwirkung hat­ten“, erfas­sen, Paket 2 eben­so (nur für ande­re Kodierungen). Das soll­ten die Spalten mit „code“ im Original sein, in denen man das kom­bi­nie­ren (und auch wie­der tren­nen) könn­te. Die Fragestellung des Abgeordneten klingt nicht so ganz sinnig.

    Paket 3 soll­te gera­de „ohne die Versichertenmenge aus Paket 1“ geschnürt wer­den, das wäre „nocode“. Da bei­de sich aus­schlie­ßen (ande­re Personen!), glau­be ich, ist die Summierung die beste Lösung.

    Daß das nicht unbe­dingt zu den gelie­fer­ten Zahlen paßt, wäre am ein­fach­sten durch Inkompetenz oder schlech­te Datenqualität zu erklä­ren und soll­te uns nicht wundern.

    Die auf­fäl­li­gen Ausreißer habe ich in der zusam­men­ge­faß­ten Tabelle pink mar­kiert (Steigerung um 100% oder mehr, r‑Quadrat > 0,5). Die X‑Markierung in der letz­ten Spalte ist für Autofilterung gedacht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert