Du bist nicht angemeldet.

Stilllegung des Forums
Das Forum wurde am 05.06.2023 nach über 20 Jahren stillgelegt (weitere Informationen und ein kleiner Rückblick).
Registrierungen, Anmeldungen und Postings sind nicht mehr möglich. Öffentliche Inhalte sind weiterhin zugänglich.
Das Team von spieleprogrammierer.de bedankt sich bei der Community für die vielen schönen Jahre.
Wenn du eine deutschsprachige Spieleentwickler-Community suchst, schau doch mal im Discord und auf ZFX vorbei!

Werbeanzeige

rewb0rn

Supermoderator

  • »rewb0rn« ist der Autor dieses Themas

Beiträge: 2 773

Wohnort: Berlin

Beruf: Indie Game Dev

  • Private Nachricht senden

51

17.05.2009, 15:20

Also ganz grob funktioniert es so: In jedem Zug weiß die KI, was auf dem Feld liegt, und wo sie Steine legen kann. Wenn sie gelegt hat, wird der Zustand des Feldes gemerkt. Am Ende des Spiels wird je nach gewonnen, verloren oder unentschieden jeder besuchte Zustand bewertet. Das dann halt ganz oft hintereinander.

52

18.05.2009, 12:36

http://games.stanford.edu/

Wer mag, kann ja mal dort gucken. Ich habe mal einen General Game player geschrieben. Der nutzte auch RL. Man bekam eine Spielbeschreibung in kif-Format zugeschickt und sollte dann ad hoc bestmoeglich spielen. Es umfasste Spiele fuer 1,2,3, ... n Spieler, die abwechselnd oder aber gleichzeitig zogen. Auch Sachen wie "Tuerme von Hanoi" und viele Varianten bekannter Spiele sind dabei.

Zitat

Hatte er einmal einen Weg durch das Gelände gefunden blieb er dabei, auch wenn es einen kürzeren Weg gab

Das ist schlecht. Strategie oder Feedbackfunktion ist unguenstig.

Zitat

die aktuelle Version 50 Millionen mal spielen lassen

Fuer TicTacToe ist das eindeutig zu viel. Auch sollte zwischen Lernmode und Competitionmode unterschieden werden.
If it were not for laughter, there would be no Tao.

rewb0rn

Supermoderator

  • »rewb0rn« ist der Autor dieses Themas

Beiträge: 2 773

Wohnort: Berlin

Beruf: Indie Game Dev

  • Private Nachricht senden

53

18.05.2009, 14:28

Es konvergiert lange vorher, aber so werden die Zustandsbewertungen stabiler.

MCP

Alter Hase

Beiträge: 513

Wohnort: Paderborn

Beruf: Software-Entwickler

  • Private Nachricht senden

54

18.05.2009, 19:10

Zitat von »"knivil"«


Zitat

Hatte er einmal einen Weg durch das Gelände gefunden blieb er dabei, auch wenn es einen kürzeren Weg gab

Das ist schlecht. Strategie oder Feedbackfunktion ist unguenstig.


Ja, lag wie gesagt daran das er zu wenig Explorativ war. Haben dann das Feedback für Felder angepasst und auch an dem Agenten selber gewerkelt dann lief es besser. :)

Ein feine Seite übrigends :)

Werbeanzeige