Website crawlen

Werbeanzeige

Bösewicht

unregistriert

20.01.2016, 11:07

Website crawlen

Frage beantwortet, danke an alle

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »Bösewicht« (08.02.2016, 12:39)

Zum Seitenanfang

Architekt

Community-Fossil

Beiträge: 2 481

Wohnort: Hamburg

Beruf: Student

20.01.2016, 11:34

Das wäre eventuell was für dich: https://github.com/FriendsOfPHP/Goutte

Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Zum Seitenanfang

xardias

Community-Fossil

Beiträge: 2 731

Wohnort: Santa Clara, CA

Beruf: Software Engineer

20.01.2016, 18:17

Zitat von »Bösewicht«

Also die konkrete Frage wäre, ob es irgendeine Möglichkeit gibt einfach an diese Informationen zu kommen, oder ob mein Programm die jeweiligen Links mit den entsprechenden Parametern generieren muss um anschließend auf den Content zugreifen zu können?

Ich wuerde mir die Links der Artikelseiten mal anschauen. z.B. bei Amazon sehen die URLs oft sehr kompliziert aus, lassen sich aber oft vereinfachen.

z.B: http://www.amazon.com/dp/1250058783/ref=…=I318EYUU1B5YHS
Ist die URL zu der man ueber die Suche kommt. Die ProduktID ist 1250058783. Also kann man mal versuchen nur den Anfang der URL zu besuchen:

http://www.amazon.com/dp/1250058783/

Und kommt zur selben Seite. D.h. du musst mit deinem Programm dann nicht mehr ueber die Suchfunktion gehen weil du direkt mit der ProduktID die richtige URL generieren kannst.

Eventuell funktioniert dies ebenfalls mit den Bildern in deinem Webshop. Wenn nicht, dann bleibt dir nicht viel anderes uebrig als die Webseite zu laden, und dann nach dem Bild zu suchen. Oft reicht dafuer eine einfache Regular Expression.

Wenn du mehr Hilfe dabei brauchst waere es Sinnvoll eine Beispielseite des Webshops/bzw der Zuliefererwebseite zu zeigen.

Zum Seitenanfang

Johannes1509

Frischling

Beiträge: 1

04.02.2016, 18:34

Empfehlung: PHP

Du hast vollkommen Recht!
Die von einem Nutzer angeforderte wird bei großen Portalen erst während des Ladens generiert:
Ruft jemand z.B. ein youtube-Video auf, so kann man in der URL den Abschnitt "v=57483" oder eben die Video-ID, die du aufrust, erkennen. Der zuständige Server lädt nun aus der Datenbank dynamische Elemente z.B. das Video, Video-Empfehlungen etc. (Für alle Nerds: Natürlich gibt es auch serverseitig gechachete Seiten)
Du kannst in PHP (sehr leicht zu verstehen & lernen) mit file_get_contents den Quellcode der Seite einlesen und nachdem Preis, der Produktbeschreibung und allen anderen von dir benötigten Daten suchen und diese herausfiltern. Auch bei großen Webshops gibt es diese "URL-Parameter". Du kannst also folglich mit einer Schleife deiner Wahl, diese Parameter durchgehen/hochzählen und so jedes Mal die Website einlesen.
Oder du schaust dir mal an wie Google oder eine andere Suchmaschine deiner Wahl Websiten crawlen: Über Hyperlinks.
Trotzdem wirst du kaum um PHP herumkommen.

Zum Seitenanfang

xardias

Community-Fossil

Beiträge: 2 731

Wohnort: Santa Clara, CA

Beruf: Software Engineer

04.02.2016, 18:53

Zitat von »Johannes1509«

Du hast vollkommen Recht!
Die von einem Nutzer angeforderte wird bei großen Portalen erst während des Ladens generiert:
Ruft jemand z.B. ein youtube-Video auf, so kann man in der URL den Abschnitt "v=57483" oder eben die Video-ID, die du aufrust, erkennen. Der zuständige Server lädt nun aus der Datenbank dynamische Elemente z.B. das Video, Video-Empfehlungen etc. (Für alle Nerds: Natürlich gibt es auch serverseitig gechachete Seiten)
Du kannst in PHP (sehr leicht zu verstehen & lernen) mit file_get_contents den Quellcode der Seite einlesen und nachdem Preis, der Produktbeschreibung und allen anderen von dir benötigten Daten suchen und diese herausfiltern. Auch bei großen Webshops gibt es diese "URL-Parameter". Du kannst also folglich mit einer Schleife deiner Wahl, diese Parameter durchgehen/hochzählen und so jedes Mal die Website einlesen.
Oder du schaust dir mal an wie Google oder eine andere Suchmaschine deiner Wahl Websiten crawlen: Über Hyperlinks.
Trotzdem wirst du kaum um PHP herumkommen.

Das crawlen kann man in so ziemlich jeder beliebigen Sprache machen, dazu braucht man kein PHP.

Zum Seitenanfang

BlueCobold

Community-Fossil

Beiträge: 10 738

Beruf: Teamleiter Mobile Applikationen & Senior Software Engineer

04.02.2016, 22:06

Zitat von »Johannes1509«

Trotzdem wirst du kaum um PHP herumkommen.

Klar kann er. Jede "größere" Sprache kann problemlos Webseiten laden und parsen. Die meisten nativ, für die anderen gibt es entsprechende Libs. Um Programmierung an sich wird er jedoch nur schwer rum kommen, das mag wohl sein.

Teamleiter von Rickety Racquet (ehemals das "Foren-Projekt") und von Marble Theory

Willkommen auf SPPRO, auch dir wird man zu Unity oder zur Unreal-Engine raten, ganz bestimmt.[/Sarkasmus]

Zum Seitenanfang

Werbeanzeige

spieleprogrammierer.de - Forum und Wiki zur Spieleprogrammierung und Spieleentwicklung

Website crawlen

Website crawlen

Zitat von »Bösewicht«

Empfehlung: PHP

Zitat von »Johannes1509«

Zitat von »Johannes1509«

Ähnliche Themen