Avatare für Randomname.de

In diesem Post möchte ich erklären, wie ich an die Nutzerbilder für randomname gelangt bin.

Eher zufällig bin ich auf uifaces gestoßen und fand das Projekt sehr interessant. Ich wollte die Bilder gerne für mein Projekt nutzen. Da die Nutzer eingewilligt haben, ihre Profilbilder in Web-Applikationen veröffentlichen zu lassen, sollte das auch rechtlich einwandfrei sein. Nach einer kurzen Analyse mit den Chrome Developer Tools ist mir eine Regelmäßigkeit beim Nachladen der Avatare aufgefallen: die URLs sind nach folgendem Schema aufgebaut: http://uifaces.com/faces/authorized/*SEITE*. Dabei wird eine HTML-Seite angefordert, aus der man die Bilder nur extrahieren muss. Dazu reichen folgende 4 Zeilen PHP-Script:

Ich wusste nicht, wie viele Requests tatsächlich verarbeitet werden würden, also habe ich die Bilder URLs erst einmal in Textdateien geschrieben, da ich davon ausgehen musste, dass die Funktion irgendwann abbricht. Das ist nicht passiert, also wäre es auch möglich gewesen die Bilder direkt zu laden. Die file_get_contents und file_put_contents Schritte können also getrost übersprungen werden, wenn man direkt einen Array nutzt.

Hinweis: Ggfs. ist der Pfad zum speichern der Daten zu ändern. Wird das Ganze nicht per CLI ausgeführt, ist es möglich, dass das Script abbricht, da die max_execution_time von PHP sehr wahrscheinlich überschritten wird.

download all the internet

Hat alles funktioniert, sollten sich nun alle Bilder im Ordner /tmp/images/ befinden.

Wer sich die Arbeit sparen möchte: hier gibt es alle 8419 Bilder gepackt, (Stand 02.06.2016).