[LINKS LEAK] SA-MP Wiki - eigenes Backup erstellen

  • Schönen guten Morgen allerseits!



    Wie ich bereits vor einigen Tagen erwähnte, wollte ich mir eine private Kopie vom aktuellen SA-MP Wiki ziehen.

    Das ist prinzipiell nicht besonders schwer, wenn man das programmiertechnische Wissen hierzu hat aber oh boy.... es gab einige Hürden!


    Zu allererst musste ich herausfinden, welche Links es alle gibt. Da es soweit ich weiß keine Gesamtübersicht gibt, musste ich alle Links einzeln anklicken (lassen) und dann eine Menge erstellen, welche alle Verlinkungen der Seite enthält.

    Das war prinzipiell gar nicht mal so schwierig. Das Problem war ein ganz anderes: Uneinheitliche Links über das gesamte Wiki verteilt...

    Vermutlich werden es sich schon einige denken können: Das hat die meiste Zeit gekostet und mich während der Datensammlung definitiv am meisten angekotzt. Dieser Prozess dauert etwa eine Stunde bis 90 Minuten.

    Das Herunterladen aller Links, die auch tatsächlich funktionieren, hat bei mir (ohne gefilterte Liste) rund 5 Stunden gedauert. Die Anwendung wird also ganz klar über einen Server und nicht lokal über den PC empfohlen.



    Da Kalcor unberechenbar ist, möchte ich euch allen meine Tools weitergeben, damit (hoffentlich) für alle Menschen da draußen eine Kopie des Wikis möglich ist.

    Eine englische Kurzanleitung findet ihr in der README.md.


    Um euch einiges an Arbeit abzunehmen, veröffentliche ich gleich auch noch eine Liste mir den funktionierenden Links. :)

    Hier sind erstmal die noch funktionierenden Links: https://gist.github.com/Andosi…0be330e9c6432b3ebaf1aa5e9

    Ihr könnt den ersten Schritt überspringen, indem ihr den Inhalt der pastebin-Zeilen in eine Datei namens "internals.txt" im selben Ordner, indem sich auch die Script-Dateien befinden, einfügt.

    Daraus wird dann anschließend eine folders.txt erstellt (scan_folders.py) und mit dieser könnt ihr die Struktur rekonstruieren (create_folders.py).

    Mit scraper.py werden dann die Strukturen gefüllt - that's it.


    Die 5-6 Javascript und CSS-Dateien müsst ihr manuell von der Seite herunterladen. Das ist aber das kleinste übel, da sich alle Path-Informationen im Header befinden. :P


    Meine Tools sind alle in Python geschrieben und hier erhältlich: Download: https://wiki.andosius.de/samp_wiki_scraper.zip

    link_collector.py enthält zum Großteil den Source-Code dieser Seite: https://www.thepythoncode.com/…-all-website-links-python


    Daher einen riesen Dank an den Entwickler, der mir viel Arbeit abgenommen hat. kekw



    Viel Spaß damit.



    WICHTIGER HINWEIS: Checkt auf jeden Fall vorher, ob es einen Eintrag in der team.sa-mp.com/robots.txt gibt! Die kann euch u.U. das automatisierte Betreten der Webseite verbieten.

    Dies müsst ihr manuell überprüfen, das Script tut das nicht automatisch!!!

    Ich übernehme keine Haftung für Schäden oder sonstige Beeinträchtigungen, die durch die Ausführung des Scripts entstanden sind! Nutzung - wie immer - auf eigene Gefahr.

  • Beitrag von Andosius ()

    Dieser Beitrag wurde vom Autor gelöscht ().

  • Ich habe nun ein Script für die restlichen Designs und JavaScript-Dateien geschrieben. Es befindet sich ab sofort auch im Archiv und nennt sich "download_assets.py".

    Hierin befindet sich beim Download kein delay, da es sich gerade mal um 16 Dateien handelt.

    Hoffentlich nimmt es dem ein oder anderen etwas Arbeit ab. :)

    Einmal editiert, zuletzt von Andosius ()