So, grade nochmal mit besagtem Problemrechner experimentiert. Sollten andere ähnliche Probleme haben, dass sie einfach nicht über eine bestimmte Beschleunigung hinauskommen, folgendes hat das Problem "gelöst": Rufe ich jeweils die Funktion (Referenz / eigene) noch einmal auf, bevor die entsprechende Zeit gemessen wird, habe ich meine Beschleunigung wieder. Muss wohl mit Caching o.ä. zusammenhängen. Interessanterweise macht dies auf den anderen Rechnern absolut keinen Unterschied.
Auf dem "Problemrechner" habe ich dagegen jetzt eine Beschleunigung von um die 300x - liegt wohl dran, dass dieser langsamer allokiert - und die Referenzfunktion so viel allokiert. Ein weiterer Zusammenhang, der mir noch aufgefallen ist: Linkt man die C runtime libraries statisch dazu, wird der Code schneller. Allerdings der Referenzcode aufgrund der vielen Allokationen in höherem Maße als der eigene Code (der bei mir nichts allokiert) - also ist für diesen Wettbewerb wohl die CRT als DLL von Vorteil - wird ja bei MSVC 2005 Standardeinstellungen auch zwangsläufig in der Auswertung so sein.