Es kann schon sinnvoll sein, jeder Kategorie einen eigenen Wert zuzuordnen. Das Problem ist nur, dass man keine Wahrscheinlichkeiten berechnen kann, wenn man nicht zuvor sauber definiert, zu welchem Ereignis man die Wahrscheinlichkeit überhaupt berechnen möchte. Und insbesondere kann man nicht wissen, wie man das Ergebnis zu interpretieren hat, wenn man nicht weiß, was man eigentlich ausrechnen wollte.
Das Problem wurde von Architekt nicht besonders gut beschrieben, aber es hörte sich interessant an, also habe ich darüber nachgedacht. Ich habe keine Ahnung, was das mit dem Obst soll, meine Interpretation ist aber folgende (wirkt immer noch arg künstlich, ist aber das Beste, was mir auf die Schnelle einfiel): Angenommen, ich möchte automatische Rechtschreibkorrektur in automatisch ausgewählten Sprachen implementieren. Ich habe einen Text der aus Wörtern besteht und zu jeder möglichen Sprache eine Liste an Wörtern, die in dieser Sprache enthalten sind. Ein Wort kann in mehreren Sprachen vorkommen ('hat' kann sowohl deutsch, als auch englisch sein). Sieht man also das Wort 'hat' kann man erstmal nicht sagen, ob es deutsch oder englisch ist, aber nun stellt man folgende Überlegung an: Als Hilfsverb würde 'hat' in einem deutschen Text häufiger vorkommen, als der 'Hut' in englischen Texten. Also sagt man, der Text ist deutsch, wenn es oft vorkommen, und englisch, wenn es selten vorkommt
Wir müssen also wissen, wie oft das Wort in welcher Sprache vorkommt, was man herausfindet wenn man einen Text mit vielen Wörtern (1 Millionen) nimmt und zählt, wie oft es dort vorkommt (z.B. 5000 mal), und anschließend durch die Gesamtzahl der Wörter teilt (mathematisch Gesprochen ein Maximum-Likelihood-Schätzer [1]). Als nächstes hat man einen Text, dessen Sprache man bestimmen möchte, mit wesentlich weniger Wörtern (sagen wir: 1000) und zählt, wie oft das Wort dort vorkommt (z.B. 6 mal). Jetzt weiß man also, dass es zu 0.5% auftauchen sollte, tatsächlich aber 6 mal aufgetaucht ist. Was ist die Wahrscheinlichkeit davon?
Dazu muss man erst definieren, wie die Wörter zustande kommen. Denkbar wäre folgendes (vereinfachtes) Modell: Man baut sich einen Text aus 1000 zufälligen Wörtern und wählt bei jedem Wort zu 5% Wahrscheinlichkeit das Wort 'hat' aus und zu 95% irgendein anderes Wort aus der Sprache (wir betrachten also ersteinmal nur die relative Häufigkeit eines einzigen Wortes, nicht die Kombinierte aller Wörter). Damit folgt die Gesamthäufigkeit des Wortes 'hat' einer Binominalverteilung [2], bei der der Parameter p die 0.5% sind und n die Anzahl der Wörter (hier also 1000). Schaut man sich die Verteilung an, sieht man schnell, dass sie nie den Wert 100 annimmt, wie BlueCobold ja auch gefordert hat. Immer beruhigend, wenn die Intuition sich als wahr heraus stellt.
Letztendlich kann man an der Verteilung ablesen, was passiert, wenn man eine Millionen deutsche Texte (in denen 'hat' zu 0.5% auftaucht) mit je 1000 Wörtern nimmt und zählt, wie oft 'hat' wirklich auftaucht. Oft wird es 5 mal sein, aber auch oft 4 oder 6 mal. Selten wird es 0 mal auftauchen und quasi nie 100 mal. Hat man jetzt also eine Zahl berechnet, die angibt, wie Wahrscheinlich es ist, dass der Text deutsch ist?
Nun, es gibt noch ein paar Probleme: Sagen wir, der Text hat doch 10.000 Wörter. Der Erwartungswert ist jetzt, dass man das Wort 50 mal zählt (und nicht mehr 5 mal), aber die Wahrscheinlichkeit es genau 50 mal zu zählen, ist wesentlich geringer, als sie vorher war, es genau 5 mal zu zählen. Sinnvoller wäre es vielleicht zu fragen, wie wahrscheinlich es ist, dass man nur 10% Abweichung hat (d.h. es zwischen 45 und 55 mal vorkommt), hier würde man dann die Wahrscheinlichkeiten für diese 10 Ereignisse addieren und dann auf eine Zahl kommen, die ungefähr der alten Wahrscheinlichkeit von 5 Vorkommnissen entspricht. Ein weiteres Problem ist aber, dass die Verteilung diskret ist (es macht keinen Sinn zu fragen, in wie vielen Fällen das Wort 4.5 oder 5.5 mal vorkommt), also wird man Zwangsläufig mit Rundungsfehlern zu kämpfen haben.
Aber, mit ein bisschen Vorsicht kann man ungefähr so für jede der vorhandenen Sprachen einen Score ausrechnen und diese dann vergleichen. Die Summe aller Scores aller Sprachen muss dabei auch nicht 100% ergeben um sinnvoll zu sein, denn der Wert sagt eben nicht "es ist zu 17% Deutsch und zu 83% englisch" sondern "ein zufälliger deutscher/englischer Text, sieht mit einer Wahrscheinlichkeit von x so aus wie dieser Text". Und man würde dann einfach den mit dem höchsten Score nehmen.
Aber man kann natürlich auf versuchen tatsächlich einen relativen Score auszurechnen. Wenn man Sprachen direkt miteinander vergleichen möchte, muss man allerdings auch wissen, wie häufig jede Sprache vorkommt (wenn man vermutet, dass ein Text bezüglich der Analyse der Wörter zu 40% deutsch und zu 60% englisch sein kann, man aber weiß, dass 99 von 100 Texten auf deutsch sein werden, sollte man trotzdem annehmen, der Text sei deutsch. Wer das fraglich findet, sollte sich unbedingt mal das 'Aidstest-Paradoxon' [3] ansehen). Wenn man nicht weiß, wie häufig jede Sprache ist, würde man vermutlich annehmen, jede sei gleich häufig. Das ist meistens ok, man sollte sich aber dieser (meist impliziten) Annahme bewusst sein, weil sie eine Fehlerquelle im mathematischen Modell darstellt.
(Anschließend würde man wohl die individuellen Scores mit der Häufigkeit der Sprache multiplizieren und dann auf 1 normalisieren und hat sein Ergebnis - aber darüber will man vielleicht auch nochmal auführlich nachdenken)
Jetzt habe ich viel geschrieben, aber was mir dabei eigentlich wichtig ist: Die Wahrscheinlichkeiten auszurechnen ist eigentlich ganz einfach, der Knackpunkt ist, das Problem vernünftig mathematisch zu formulieren. Jede Antwort hier kann man als richtig oder falsch ansehen, denn die Problemstellung ist so diffus, dass man nicht sagen kann, welches Modell das richtige ist und dementsprechend auch nicht, welche Wahrscheinlichkeit die richtige ist. Und: Es gibt mehrere Fallstricke bei der Modellfindung, oft hat man das benötigte Wissen nicht, oder weiß vorher schon, dass gewisse Dinge nur Näherungen sind. Das kann man nicht immer verhindert, man kann damit aber trotzdem oft leben (aber sollte alle diese kleinen Probleme nicht vergessen!).
Selbst wenn man dann ein geeignetes Modell gefunden hat, muss man es immer noch wirklich verstanden haben. Was nützt einem schon irgendein Prozent-Wert wenn man keine Ahnung hat, wie man ihn zu interpretieren hat? Man darf sich hier nicht täuschen, Menschen sind verdammt beschissen darin, Wahrscheinlichkeiten zu verstehen, ich würde sogar fast behaupten, dass die Intuition bei Nicht-Mathematikern und nicht-trivialen Fällen fast nie richtig liegt. Ein schönes Beispiel dafür ist der Unterschied zwischen Median und Mittelwert [4], der eigentlich leicht zu verstehen ist, aber den meisten Menschen auf der Straße trotzdem nicht bewusst sein dürfte. Und am Ende des Tages sind manche Sachverhalte einfach inhärent kompliziert und man gewinnt nichts, wenn man sie auf eine einzige Zahl runterbricht. So ist das Leben.
[1]
https://de.wikipedia.org/wiki/Maximum-Likelihood-Methode
[2]
https://de.wikipedia.org/wiki/Binomialverteilung
[3]
https://blog.zeit.de/mathe/allgemein/wel…hiv-mathematik/
[4]
http://statistik-dresden.de/archives/1863