du kannst Java-Apps in eine seite einbinden, dazu muss aber beim "Enduser" die Java Virtual Machine laufen und an die Daten im App wirst du nicht einfach so rankommen. Macht auch keinen Sinn, denn über ein Java-App wird man keine Newsletter, Artikel oder Blogs anbieten, höchstens integrierte "Programme", wie Taschenrechner oder Mathesoftware zum berechnen und/ oder zeichnen einer Kurve ( z.B. ).
zwischen Javascript und Java besteht ein großer unterschied.
Java ist eine Programmiersprache, die von einer VM (Virtual Machine) interpretiert wird. kompilierter Javacode präsentiert den Bytecode, welches von der VM, wie schon erwähnt "interpretiert" wird und am Ende das Programm laufen lässt. Ohne VM geht da nix.
Javascript ist, wie schon im Namen steht, eine Skriptsprache. Javascript wird vom jeweiligen PC+Browser ausgeführt, d.h. das ein Benutzer Javascript auch gerne deaktivieren kann. Javascript bewirkt nichts anderes als etwas mehr Dynamik in eine Webseite zu bringen. z.B. dass ein verstecktes <div> Tag im DOM durch betätigen eines Links oder Buttons, erscheint. ( Ein Beispiel sind Dropdown-Menüs )
weiter geht es mit Skriptsprachen, die von einem Server interpretiert werden. Diese stehen meistens mit einer Datenbank in Verbindung.
Beispiel: PHP, ASP.NET
Ich nehme jetzt einfach mal PHP, mit .NET hatte ich bisher nicht viel zu tun *kotz, microsoft, bäh, ih*
Apache heißt der Server, der den PHP-Code interpretiert und so ein Webseite tatsächlich Dynamisch macht. Beim Aufruf der Seite werden Daten aus einer Datenbank geladen, ob es News, Kundendaten, Produktdaten, Blogeinträge oder sonstige Daten sind spielt keine Rolle. Diese Daten werden beim Aufrufen der Webseite vom PHP-Code von der Datenbank geladen und binnen weniger sekunden/ millisekunden als HTML-Seite angezeigt.
für mich ist HTML nichts weiter als ein Werkzeug, um texte und bilder formatiert darzustellen. HTML ist statisch, viel dynamik kann man damit nicht in eine Webseite bringen. Dafür wurden weitere Schnittstellen, wie CGI, Javascript, PHP, .NET, AJAX erfunden, um aus HTML einfach mehr zu machen.
Bevor du einen Crawler bastelst solltest du dich mehr mit den einzelnen Technologien beschäftigen... Ohne Regex (Regular Expressions), XPath und XML wirst du nicht sehr weit kommen, ohne HTML erst recht nicht.
Ich bin kein Webentwickler, verfüge aber über die Kenntniss mit den einzelnen Technologien umzugehen, deshalb solltest du meine Beschreibungen nicht als Definitionen nehmen. Da greife lieber zu anderen Quellen!
Ich kann dir nur empfehlen dich mit dem HtmlAgilityPack zu beschäftigen. Damit kannst du HTML Seiten parsen. der Rest ist das umwandeln in ein XML Dokument und alles weitere, was ich dir vorher schon geschrieben habe. außer dem Parser findest du alles andere in den Bibliotheken von C#.