bund.dev: Wir befreien das Handelsregister!
Seit Anfang August ist das deutsche Handelsregister kostenfrei zugänglich. Allerdings nicht in einer maschinenlesbaren Form. Deshalb befreien wir als zivilgesellschaftliche Organisation das Handelsregister und stellen heute einen ersten 100 GB großen Datensatz für Forschungszwecke bereit.
In Deutschland muss jede Kapitalgesellschaft — also z.B. eine GmbH oder eine UG — im Handelsregister eingetragen werden. Dort ist verzeichnet, wem diese gehört und wer die Gesellschaft nach außen vertreten darf — also Geschäftsführer*in oder Prokurist*in ist. Das Handelsregister ist somit eine Datenbank, in der Details zu jedem deutschen Unternehmen verzeichnet sind. Es ist eine wichtige Informationsquelle unter anderem für Journalist*innen und Aktivist*innen — um z.B. herauszufinden, wem eine Firma gehört.
Bisher kostete die Abfrage eines Dokumentes aus dem Handelsregister Geld. Zuletzt pro Dokument 1,50 €. Bei häufig deutlich über 10 verfügbaren Dokumenten pro Firma sind Handelsregister-Recherchen also schnell ein teures Unterfangen.
Seit dem 1. August ist das Handelsregister nun kostenlos auf der Webseite https://www.handelsregister.de einsehbar. Das ist großartig, weil nun auch groß angelegte Analysen von komplexen Firmenstrukturen möglich werden, ohne dass diese Tausende Euro kosten.
Handelsregister & chill? 🥳
Das ganze klingt erstmal super, hat leider aber noch einige Haken. Die meisten Informationen im Register liegen nur in Form von PDF Dateien vor. Diese Informationen sind also nicht so strukturiert, dass sie automatisch verarbeitet werden können. Bei großen Recherchen müssen also z.B. Eigentumsverhältnisse manuell aus den PDF-Dokumenten recherchiert werden. Es ist auch nicht möglich, die Dokumente im Volltext zu durchsuchen. Eine Suche funktioniert ausschließlich auf Basis der Firma, für die das Dokument eingetragen wurde. Eine Recherche wie “Welche Firmen gehören Fynn Kliemann?” könnte auf Basis einer einzigen Suchanfrage möglich sein — ist heute aber quasi unmöglich, weil nur nach Firmen gesucht werden kann, die bereits bekannt sind.
Außerdem begrenzt handelsregister.de die Suche auf 60 Anfragen pro Stunde und es gibt laut der registerführenden Behörde — dem Amtsgericht Hagen — weder eine Programmierschnittstelle für automatisierte Anfragen noch einen kompletten Download des Registers.
Eine Schnittstelle, das wäre was! 🕵🏻♀️
Eine Programmierschnittstelle müsste es rechtlich gesehen allerdings geben. Das schreiben unter anderem die EU-Direktive 2019/1024 sowie das Datennutzungsgesetz (§9) vor. Denn es handelt sich beim Handelsregister um einen sogenannten hochwertigen Datensatz. Er bringt also einen hohen gesellschaftlichen und wirtschaftlichen Nutzen und muss daher nicht nur öffentlich zugänglich, sondern auch maschinenlesbar sein.
Da es jedoch öffentlich keine Informationen zu solch einer Schnittstelle gibt, stellte ich eine Anfrage an die Servicestelle des gemeinsamen Registerportals der Länder. Dort teilte man mir mit, dass der Download per API oder einer anderen Schnittstelle aus technischen Gründen leider nicht möglich sei. Und stattdessen doch einfach die Webseite für Anfragen verwendet werden solle.
Das stellte sich jedoch wenig später als eine Falschinformation heraus. Denn mir wurde ein Dokument mit dem Titel “Feinkonzept Verwaltungsschnittstelle (Webservice für öffentliche Bedarfsträger)” zugespielt. Dieses beschreibt auf 42 Seiten eine Programmierschnittstelle, welche Behörden erlaubt, das Handelsregister automatisiert abzufragen.
Diese Schnittstellendokumentation beschreibt sogar explizit das Szenario, in dem das Handelsregister frei zugänglich wird und somit eine Registrierungspflicht zur Nutzung der Schnittstelle nicht mehr notwendig ist. Also der Fall, der am 1. August eingetreten ist.
Dann holen wir uns die Daten eben! 👩🏻💻
Da die Verwaltung kein Interesse daran zeigte, die Daten des Handelsregister einfach zugänglich zu machen, ist das wohl erst einmal wieder der Job der digitalen Zivilgesellschaft. Und mit der Befreiung von Daten und Schnittstellen kennen wir uns bei bund.dev ja bereits gut aus.
Also entwickelten wir über die letzten Tage einen sogenannten Scraper. Also ein kleines Tool, welches Dokumente aus dem Handelsregister automatisch aufruft und dabei so tut, als sei es ein Mensch. Diese Dokumente speichern wir dann ab und analysieren sie.
Dabei gibt es nur die kleine Hürde, dass wir nur 60 Dokumente pro Stunde abrufen dürfen, da ansonsten unsere IP-Adresse gesperrt wird. Das würde bedeuten, dass wir alleine um das 280.000 Unternehmen umfassende Berliner Handelsregister abzurufen, knapp 200 Tage benötigen würden. Das dauert uns dann doch etwas zu lange, weswegen wir einige Tricks anwendeten und so große Teile des Berliner Handelsregister innerhalb eines Tages herunterladen konnten.
Schnell kamen so etwa 100GB Daten zusammen.
Daten putzen, das bringt Nutzen! 🧹
Da wir bei bund.dev ja immer sehr offen mit unseren Datenbefreiungsaktionen umgehen, gaben wir auch schon bevor wir die Daten befreiten, einige Interviews dazu.
Darauf erhielten wir ungewöhnlich viel Feedback. Primär von Leuten, die Angst davor hatten, dass nun transparenter wird, welche Firmen sie besitzen. Allerdings erreichten uns auch einige aus unserer Sicht legitime Anfragen und Hinweise. So wurden uns beispielsweise einige Fälle zugetragen, in denen Daten im Handelsregister stehen, die da nicht rein gehören. Zum Beispiel Kopien von Personalausweisen oder Ausweisnummern, die auf Dokumenten vermerkt wurden.
Wir können zum heutigen Zeitpunkt nicht einschätzen, in welchem Ausmaß im Handelsregister Daten stehen, die dort nicht vorkommen sollten. Wir haben bisher auch keine Lösung dafür, wie wir eine solche Menge an Dokumenten sinnvoll (teil-)automatisiert bereinigen können.
Deswegen brauchen wir jetzt eure Unterstützung. Wir haben einen Datensatz mit 100 GB Dokumenten und möchten diesen gerne erstmal mit Menschen und Organisationen teilen, die wir für vertrauenswürdig halten und die Interesse daran haben, erste Auswertungen auf Basis des Datensatzes durchzuführen.
Wir sehen dabei insbesondere folgende Forschungsfelder:
- Wie können Dokumententypen (Gesellschafterliste, Gesellschaftervertrag, …) automatisiert klassifiziert werden?
- Wie können Dokumente, die definitiv nichts im Handelsregister zu suchen haben, automatisch erkannt werden? Und wie können sie aus dem HR entfernt werden?
- Wie können Gesellschafterlisten automatisiert in ein strukturiertes Format überführt werden?
Falls ihr Zugang zu unserem Explorationsdatensatz erhalten wollt, könnt ihr euch hier mit eurem Projekt bewerben. Aus Gründen der Transparenz werden wir die Namen aller Organisationen und Projekte, denen wir Zugang zu den Daten geben, veröffentlichen. Wir würden uns freuen, wenn ihr eure Ergebnisse als OpenSource/OpenData bereitstellen würdet.
Wir hoffen, dass wir schon bald das komplette Handelsregister allen in einer maschinenlesbaren Form zur Verfügung stellen können. Allerdings wollen wir das nicht überstürzen. Denn wie wir aus genug Fällen in der Vergangenheit gelernt haben, führen undurchdachte Digitalisierungsprojekte gerne mal zu gesellschaftlichen Folgen, die nicht absehbar sind und die sich auch nicht mehr einfach rückgängig machen lassen.
Es ist nicht unser Job! 🔥
Es ist traurig, dass wir als Zivilgesellschaft einmal wieder eine Aufgabe des Staates übernehmen müssen. Denn dass dieser uns diese Daten zur Verfügung stellen müsste, ist gesetzlich geregelt. Und die Auswertungen, die durch strukturierte Eigentumsinformationen ermöglicht werden würde, egal ob im Investigativjournalismus oder bei der Steuerfahndung, sollten auch im Interesse der gesamten Gesellschaft liegen.
Wenn ihr meine zivilgesellschaftliche Arbeit zu Themen wie z.B. Verwaltungsdigitalisierung, Sicherheitsforschung und Open Data unterstützen wollt, dann könnt ihr das via 💸Patreon💸 tun. Und wenn ihr bei meiner nächsten Recherche live dabei sein wollt, dann folgt mir auf Twitter.