Du bist nicht angemeldet.

Stilllegung des Forums
Das Forum wurde am 05.06.2023 nach über 20 Jahren stillgelegt (weitere Informationen und ein kleiner Rückblick).
Registrierungen, Anmeldungen und Postings sind nicht mehr möglich. Öffentliche Inhalte sind weiterhin zugänglich.
Das Team von spieleprogrammierer.de bedankt sich bei der Community für die vielen schönen Jahre.
Wenn du eine deutschsprachige Spieleentwickler-Community suchst, schau doch mal im Discord und auf ZFX vorbei!

Werbeanzeige

Sc4v

Alter Hase

  • »Sc4v« ist der Autor dieses Themas

Beiträge: 376

Beruf: Student

  • Private Nachricht senden

1

01.06.2013, 12:35

Download von Webseiten

Hi zusammen,

benötige für ein Projekt ne ganze Menge Webseiten (Startseiten) und habe jedoch keinen Schimmer wie ich diese lokal speichern kann. Ich meine dabei nicht die komplette Webseite wie man sie zB mit WinHTTrack bekommt, sondern eher nur die HTML Startseite wie man sie zB bei Firefox durch "Seite speichern unter" bekommt. Ist es möglich dafür ein Script zu schreiben? Leider kenne ich mich damit gar nicht aus und mag nicht hunderte Seiten per hand speichern -.-
Wenn da jemand Ahnung von hätte und mir weiterhelfen könnte, wäre ich schwer dankbar :rolleyes:

Greets
Sc4v

edit:
@Mods: vielleicht zielt dieser Thread doch eher in "Sonstige Programmierung und Informatik" ab, hab ich mir vorher keine Gedanken drüber gemacht sorry 8|

2

01.06.2013, 12:49

Es ist in eigentlich jeder Programmiersprache möglich Webseiten abzurufen. Dafür gibt es dann auch oft entsprechende Librarys. Wenn du aber keine Programmierkenntnise hast kannst du auch mit Programmen wie dem von dir genannten WinHTTrack die Webseiten laden. Dort kannst du normal auch diverse Filter angeben, damit du nur das bekommst was du auch willst.

Leider wird dein Anwendungsfall nicht 100% klar. Willst du nur einmalig eine Liste mit Seiten laden ? Ist die Ausführung von Javascript relevant ?

Architekt

Community-Fossil

Beiträge: 2 481

Wohnort: Hamburg

Beruf: Student

  • Private Nachricht senden

3

01.06.2013, 12:50

Schreib dir doch ein kleines PHP Script:

Quellcode

1
2
3
4
5
6
7
8
9
10
11
<?php
    
    $pages = array('https://www.spieleprogrammierer.de', 'http://www.google.de');

    foreach ($pages as $page) {
        $content = file_get_contents($page);
        preg_match('#www\.(.+?)\.#i', $page, $rows);
        file_put_contents($rows[1] . '.html', $content);
    }

?>
Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Sc4v

Alter Hase

  • »Sc4v« ist der Autor dieses Themas

Beiträge: 376

Beruf: Student

  • Private Nachricht senden

4

01.06.2013, 12:52

Hi,

doch klar ich kann programmieren ;)
Ich dachte in dem Kontext jedoch eher an ein recht einfaches Batch Script oder ähnliches
ich brauche den Text-Content der Startseite, also wirklich nur den reinen Text. JavaScript ist damit irrelevant. Wenn ich über Firefox die Seite speichere erhalte ich ein reines HTML dokument, genau das würde mir genügen

Sc4v

Alter Hase

  • »Sc4v« ist der Autor dieses Themas

Beiträge: 376

Beruf: Student

  • Private Nachricht senden

6

01.06.2013, 21:20

Danke, sowas wie wget habe ich gesucht und schaue ich mir mal an :thumbsup:

Toa

Alter Hase

Beiträge: 944

Beruf: Research associate

  • Private Nachricht senden

7

04.06.2013, 00:09

Hey,
falls noch Interesse besteht, könnte ich dir meinen Python Crawler geben der Websites speichert und die Möglichkeit bietet Text zu extrahieren für Sprachanalyse. Einfach melden. Grüße T0a
"Das ist ein Minkovski Raum, manche Menschen nennen ihn auch Weltraum" Prof. Dr. Jürgen Wambach, Theoretische Physik, TU Darmstadt | Meine Homepage

Sc4v

Alter Hase

  • »Sc4v« ist der Autor dieses Themas

Beiträge: 376

Beruf: Student

  • Private Nachricht senden

8

04.06.2013, 23:07

Hast mal ne Mail

Werbeanzeige