Du bist nicht angemeldet.

Stilllegung des Forums
Das Forum wurde am 05.06.2023 nach über 20 Jahren stillgelegt (weitere Informationen und ein kleiner Rückblick).
Registrierungen, Anmeldungen und Postings sind nicht mehr möglich. Öffentliche Inhalte sind weiterhin zugänglich.
Das Team von spieleprogrammierer.de bedankt sich bei der Community für die vielen schönen Jahre.
Wenn du eine deutschsprachige Spieleentwickler-Community suchst, schau doch mal im Discord und auf ZFX vorbei!

Werbeanzeige

Architekt

Community-Fossil

  • »Architekt« ist der Autor dieses Themas

Beiträge: 2 481

Wohnort: Hamburg

Beruf: Student

  • Private Nachricht senden

1

04.03.2018, 22:17

Deutscher Porter-Stemmer Algorithmus

Moin. Im Zusammenhang mit MongoDB beschäftige ich mich gegenwärtig mit dem Porter-Stemmer-Algorithmus. Beim Lesen des Deutschen Stemmer-Algorithmus (http://snowball.tartarus.org/algorithms/german/stemmer.html) springt mir allerdings diese Aussage ohne weitere Begründung entgegen:

Zitat

First, replace ß by ss, and put u and y between vowels into upper case.

Ich habe schon gesucht, aber irgendwie wird diese Aussage immer nur hingenommen und nicht hinterfragt. Ich verstehe sie allerdings nicht auf Anhieb. Vllt. weiß ja hier jemand mehr?
Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

David Scherfgen

Administrator

Beiträge: 10 382

Wohnort: Hildesheim

Beruf: Wissenschaftlicher Mitarbeiter

  • Private Nachricht senden

2

04.03.2018, 23:05

Am Ende wird das ja wieder rückgängig gemacht. Also würden u und y zwischen Vokalen wohl irgendwas am Algorithmus kaputt machen, darum werden sie „maskiert“. Du kannst diese Sonderbehandlung ja mal weglassen, einige Wörter testen, bei denen das vorkommt (z. B. teuerste, bauen, ...) und anschließend die Ergebnisse vergleichen.

Architekt

Community-Fossil

  • »Architekt« ist der Autor dieses Themas

Beiträge: 2 481

Wohnort: Hamburg

Beruf: Student

  • Private Nachricht senden

3

04.03.2018, 23:47

bauen war ein guter Tipp, manchmal sieht man den Wald vor lauter Bäumen nicht mehr. Danke David!
Es hat allerdings nichts mit der Rückführung sondern mit der Bestimmung von m bzw. R1 und R2 zu tun:
Mit u -> U: bauen => baUen => Resultiert in bau (Korrekt)
Mit u -> u: bauen => bauen => Resultiert in bauen (Inkorrekt)
Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Werbeanzeige

Ähnliche Themen