Du bist nicht angemeldet.

Stilllegung des Forums
Das Forum wurde am 05.06.2023 nach über 20 Jahren stillgelegt (weitere Informationen und ein kleiner Rückblick).
Registrierungen, Anmeldungen und Postings sind nicht mehr möglich. Öffentliche Inhalte sind weiterhin zugänglich.
Das Team von spieleprogrammierer.de bedankt sich bei der Community für die vielen schönen Jahre.
Wenn du eine deutschsprachige Spieleentwickler-Community suchst, schau doch mal im Discord und auf ZFX vorbei!

Werbeanzeige

Bösewicht

unregistriert

1

20.01.2016, 11:07

Website crawlen

Frage beantwortet, danke an alle :)

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »Bösewicht« (08.02.2016, 12:39)


Architekt

Community-Fossil

Beiträge: 2 481

Wohnort: Hamburg

Beruf: Student

  • Private Nachricht senden

2

20.01.2016, 11:34

Das wäre eventuell was für dich: https://github.com/FriendsOfPHP/Goutte
Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

xardias

Community-Fossil

Beiträge: 2 731

Wohnort: Santa Clara, CA

Beruf: Software Engineer

  • Private Nachricht senden

3

20.01.2016, 18:17

Also die konkrete Frage wäre, ob es irgendeine Möglichkeit gibt einfach an diese Informationen zu kommen, oder ob mein Programm die jeweiligen Links mit den entsprechenden Parametern generieren muss um anschließend auf den Content zugreifen zu können?

Ich wuerde mir die Links der Artikelseiten mal anschauen. z.B. bei Amazon sehen die URLs oft sehr kompliziert aus, lassen sich aber oft vereinfachen.

z.B: http://www.amazon.com/dp/1250058783/ref=…=I318EYUU1B5YHS
Ist die URL zu der man ueber die Suche kommt. Die ProduktID ist 1250058783. Also kann man mal versuchen nur den Anfang der URL zu besuchen:

http://www.amazon.com/dp/1250058783/

Und kommt zur selben Seite. D.h. du musst mit deinem Programm dann nicht mehr ueber die Suchfunktion gehen weil du direkt mit der ProduktID die richtige URL generieren kannst.

Eventuell funktioniert dies ebenfalls mit den Bildern in deinem Webshop. Wenn nicht, dann bleibt dir nicht viel anderes uebrig als die Webseite zu laden, und dann nach dem Bild zu suchen. Oft reicht dafuer eine einfache Regular Expression.

Wenn du mehr Hilfe dabei brauchst waere es Sinnvoll eine Beispielseite des Webshops/bzw der Zuliefererwebseite zu zeigen.

4

04.02.2016, 18:34

Empfehlung: PHP

Du hast vollkommen Recht!
Die von einem Nutzer angeforderte wird bei großen Portalen erst während des Ladens generiert:
Ruft jemand z.B. ein youtube-Video auf, so kann man in der URL den Abschnitt "v=57483" oder eben die Video-ID, die du aufrust, erkennen. Der zuständige Server lädt nun aus der Datenbank dynamische Elemente z.B. das Video, Video-Empfehlungen etc. (Für alle Nerds: Natürlich gibt es auch serverseitig gechachete Seiten)
Du kannst in PHP (sehr leicht zu verstehen & lernen) mit file_get_contents den Quellcode der Seite einlesen und nachdem Preis, der Produktbeschreibung und allen anderen von dir benötigten Daten suchen und diese herausfiltern. Auch bei großen Webshops gibt es diese "URL-Parameter". Du kannst also folglich mit einer Schleife deiner Wahl, diese Parameter durchgehen/hochzählen und so jedes Mal die Website einlesen.
Oder du schaust dir mal an wie Google oder eine andere Suchmaschine deiner Wahl Websiten crawlen: Über Hyperlinks.
Trotzdem wirst du kaum um PHP herumkommen.

xardias

Community-Fossil

Beiträge: 2 731

Wohnort: Santa Clara, CA

Beruf: Software Engineer

  • Private Nachricht senden

5

04.02.2016, 18:53

Du hast vollkommen Recht!
Die von einem Nutzer angeforderte wird bei großen Portalen erst während des Ladens generiert:
Ruft jemand z.B. ein youtube-Video auf, so kann man in der URL den Abschnitt "v=57483" oder eben die Video-ID, die du aufrust, erkennen. Der zuständige Server lädt nun aus der Datenbank dynamische Elemente z.B. das Video, Video-Empfehlungen etc. (Für alle Nerds: Natürlich gibt es auch serverseitig gechachete Seiten)
Du kannst in PHP (sehr leicht zu verstehen & lernen) mit file_get_contents den Quellcode der Seite einlesen und nachdem Preis, der Produktbeschreibung und allen anderen von dir benötigten Daten suchen und diese herausfiltern. Auch bei großen Webshops gibt es diese "URL-Parameter". Du kannst also folglich mit einer Schleife deiner Wahl, diese Parameter durchgehen/hochzählen und so jedes Mal die Website einlesen.
Oder du schaust dir mal an wie Google oder eine andere Suchmaschine deiner Wahl Websiten crawlen: Über Hyperlinks.
Trotzdem wirst du kaum um PHP herumkommen.

Das crawlen kann man in so ziemlich jeder beliebigen Sprache machen, dazu braucht man kein PHP.

BlueCobold

Community-Fossil

Beiträge: 10 738

Beruf: Teamleiter Mobile Applikationen & Senior Software Engineer

  • Private Nachricht senden

6

04.02.2016, 22:06

Trotzdem wirst du kaum um PHP herumkommen.
Klar kann er. Jede "größere" Sprache kann problemlos Webseiten laden und parsen. Die meisten nativ, für die anderen gibt es entsprechende Libs. Um Programmierung an sich wird er jedoch nur schwer rum kommen, das mag wohl sein.
Teamleiter von Rickety Racquet (ehemals das "Foren-Projekt") und von Marble Theory

Willkommen auf SPPRO, auch dir wird man zu Unity oder zur Unreal-Engine raten, ganz bestimmt.[/Sarkasmus]

Werbeanzeige