A bisserl Statistik und Analyse

Bis zu diesem Beitrag umfasst der Blog etwas mehr als 1.000 Artikel und etwas mehr als 500 Kommentare. Bislang wurden fast alle Kommentare von mir freigeschaltet, auch kritische, weil die Regeln (Impressum) beachtet wurden.

In den letzten Wochen sind jedoch eine ganze Menge Kommentare hinzu gekommen, die von mir nicht freigeschaltet wurden. Warum soll hier gar nicht erläutert werden, sondern welche Informationen man aus den Kommentaren an sich ziehen kann. Oberflächlich betrachtet stammen fast alle von verschiedenen Personen, was implizieren soll, dass eben eine ganze Menge Leute mit den Positionen dieses Blogs – zum größten Teil gesicherte Fakten und naturwissenschaftliche Schlussfolgerungen, daneben natürlich auch so mancher Seitenhieb auf die grünen Dumpfbacken – nicht einverstanden sind. Genauer betrachtet stammen aber fast alle Kommentare von ein und derselben Person. Dafür gibt es eine ganze Reihe von Indizien:

  • Sehr viele Kommentare haben als Absender die gleiche IP-Adresse, kommen also vom gleichen Gateway des Providers (welcher das ist, ist natürlich auch heraus zu bekommen). Bei der Vielzahl der Provider und der von ihnen benutzten IP-Adressbereiche sind gleiche IP-Adressen unterschiedlicher Nutzer ziemlich unwahrscheinlich. Selbst ein und derselbe Nutzer taucht oft mir unterschiedlichen IP-Adressen auf, was eine Analyse aufwändig macht. Bestimmte Infrastrukturen beim Provider führen allerdings dazu, dass Kunden vom gleichen Server bedient werden. Gleiche IP-Adresse = gleicher Nutzer, unabhängig vom Namen.
  • Zwar ein relativ schwaches Indiz, aber immerhin: das Zeitfenster, in denen die Kommentare abgesandt wurden, ist zu eng, um zu verschiedenen Nutzern zu passen.
  • Die Kommentatoren (oder der Kommentator) ist in gewisser Weise lernfähig (leider nicht auf den entscheidenden Gebieten). Kommentiert wurde mit Name und Email-Adresse, die schnell als nicht existierend entlarvt werden kann. Nach einem entsprechenden Hinweis in einem Beitrag erschienen alle Kommentare ohne Emailadresse, so als ob alle folgenden das gelesen hätten. Dafür wurden Kommentare an Beiträge angehängt, die ganz andere Themen behandelten (also doch zu doof zum Lesen). Erst nach einem weiteren Hinweis erschienen Kommentare dann an den richtigen Stellen. Transferleistungen im Denken sind offenbar weniger angesagt.
  • Da die Beiträge nicht freigeschaltet wurden, verlor der Kommentator offenbar die Übersicht auf verwendete Namen. So kommentierten einmal Sina Rashedi, Sabine Vogt und Hannes, beim nächsten Mal Sina Rahadi, Sandra Vogt und Jannes. Mit Tippfehlern hat das aus verschiedenen Gründen nichts zu tun.
  • Die Kommentare sind zwar etwas kurz, aber ich habe trotzdem mal einen experimentellen Filter drauf losgelassen, der anhand verschiedener stilistischer und anderer Kriterien untersucht, ob verschiedene Texte von verschiedenen Autoren stammen oder dem gleichen Autor zuzuordnen sind. Die Anzahl der Kommentare ist jedenfalls ausreichend. Der ordnete mit recht hoher Wahrscheinlichkeit die fraglichen Kommentare dem gleichen Autor zu.

Man könnte noch andere Maßstäbe hinzu ziehen, beispielsweise die thematische Tendenz der Kommentare oder gewisse Hintergrundkenntnisse, die der Kommentator offensichtlich gegooglet hat. Auch damit landet man bei einer hohen Wahrscheinlichkeit für einen Autor.

Also, Grüner Troll, wenn es dir nicht zu langweilig wird, mach ruhig weiter. Mir wird es nicht zu langweilig, den Quark in die Analyse zu schieben und nicht zuzulassen.

7 Gedanken zu „A bisserl Statistik und Analyse

    1. Da hast du wieder was gesagt! Nun bekomme ich dauernd lustige Anregungen, wie man in PHP programmiert. Aber nope, ist was andreas.

      So lange eine Maschine hinter einem Provider-Netzwerk arbeitet, nützt einem die IP-Adresse ohnehin erst dann was, wenn was Justiziables rausgeschossen wird. Dann kann man den Provider-Admin bitten, die Verbindungstabellen einzufrieren, und überlässt das Weitere dem Staatsanwalt. Hatte ich auch schon ein paar Mal. Da waren einige Leute jeweils sehr erstaunt, wenn ein Rollkommando von der Polizei vor der Tür steht oder häßliche Vorladungen auf den Tisch flattern.

      1. schon richtig – man soll respektvoll bleiben/schreiben.
        Und eine frühmorgendliche Hausdurchsuchung ist sicher auch nicht spassig.
        IP-Adressen (personenbezogenes Daten) speichern/verarbeiten ist datenschutzrechtlich nicht ganz unproblematisch (grds. „Einwilligung mit Erlaubisvorbehalt“).
        Was mir hier unklar ist – wenn einer wirklich i.S.d. StGB beleidigen will so wird er doch wohl via „Dritte“ die Zielwebsite über einen modifizierten „sicheren“ Webbrowser aufrufen – dann wird seine Source-IP überschrieben und die „Neue“ geloggt. Wie soll man dann aber die ursprüngliche IP-Adresse des Angreifers herausfinden? Jeden (ggf. ausländischen) Proxy in der Kette via Anzeige zur Herausgabe zwingen (lassen)?
        Oder gibt es einen Experten-Zaubertrick der es ohne viel Aufwand möglich macht?

        1. Stimmt so nicht. Siehe

          Bundesgesetzblatt Jahrgang 1996 Teil I Nr. 39, ausgegeben am 31.07.1996, Seite 1120 Telekommunikationsgesetz (TKG) vom 25.07.1996

          Die Provider müssen danach die Zuordnung in den Verbindungs-Tabellen am Gateway 6 Monate speichern. Damals war Speicherplatz teuer, deshalb wurde dagegen geklagt. Das Verfassungsgericht gab den Providern in sofern Recht, als der, der die Musik bestellt (der Staat), sie auch zahlen muss. Hat der Staat natürlich nie getan und die Provider haben die Speicherung i.d.R. auf 24-48 h begrenzt. Daran hat sich bis heute nichts geändert.

          Ohne die Tabelle ist eine Personalisierung aber nicht möglich, folglich gibt es auch keinerlei Rechtsprobleme. Das hat das Bundesverfassungsgericht am 24.1.2012 nochmals bestätigt und lediglich die Regeln für die Herausgabe der Tabelle verschärft. Die Daten werden weiterhin erfasst und gespeichert.

        2. Zu 2: nicht jeder ist so schlau, einen Relais-Server zu verwenden. Wenn das über das Ausland geht, kann man als Privater nichts machen (inzwischen gehen die Pöbelcomments teilweise über Schweizer Server). Man sollte sich trotzdem nicht zu weit aus dem Fenster lehnen, wenn man sich mit der NSA, dem GCHQ oder dem chinesischen MfS angelegt. Mit deren weltweiten Logfähigkeiten dürften die in der Lage sein, auch TOR auszuhebeln (besonders wenn sie bereits 80% der Exit-Knoten betreiben). Ist eine Frage der Statistik. Was man manchmal in SciFi-Filmen sieht (Zurückverfolgung über Zwischenknoten), dürfte gar nicht weit neben der Realität liegen, wobei das meist nicht in Echtzeit laufen muss.

          1. Ja – die Geheimdienste haben auch gut ausgebildete und bewaffnete Aussendienstmitarbeiter – zumindest in den Filmen 🙂
            Geheimdienste könnten dann als TOR Exit-Node Betreiber ggf. Anmeldedaten, Passwörter und Kommunikation mitschneiden – falls man nicht https verwendet.
            Muss man wohl vertrauenswürdige Exit-Nodes suchen und fest konfigurieren … und sich von Snowden beraten lassen … falls der dann noch lebt …
            Wer TOR zum Pöbeln nutzt kann aber wohl über die (bekannten) Exit-Node-IPs rausgefiltert werden …

          2. Man kann natürlich mangels Möglichkeiten nichts messen, aber wir haben mal die Möglichkeiten durchgespielt, durch Vergleich der Socket-Informationen, Zeitpunkte und Paketlängen, die an den Backbone-Knoten abgegriffen werden können, Nachrichtenwege in einem hypothetischen TOR-System vom Zielsystem zurück zu verfolgen. Das geht nur mit relativer Unsicherheit, da die Nachrichten selbst zwischen den Relaisstationen ja individuell verschlüsselt sind und deshalb nicht ausgewertet werden können. Die meisten Sessions produzieren allerdings viele Datagramme, was wiederum als Filter verwendet werden kann. Wenn man Glück hat, verdichtet sich die ursprüngliche Aufspaltung auf mehrere Kandidaten schließlich auf ein Quellsystem. Selbst wenn die internen TOR-Wege relativ schnell umgeschaltet werden, lässt sich die Methode anwenden, dauert eben nur länger. So weit die Simulation durch ein paar Stunden Arbeit in einer Studi-Projektgruppe. Die Profis, die tagein tagaus nichts anderes machen als solche Sachen, dürften wohl noch ein paar Tricks mehr drauf haben.

            Nachrichtendienste haben gemäß TK-Gesetzen vollen Lauschzugriff auf die Router, und nach Snowden dürften die 5-Eyes und vermutlich auch die Chinesen die Kapazitäten besitzen, das durchzuziehen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.