Interview mit dem Schweizer Radio zum Thema AHP-Bewertungsmethodik bei öffentlichen Beschaffungen

Die Wahl der Bewertungsmethode bei Ausschreibungen ist in der Regel kein neutraler Vorgang, sondern kann einen Einfluss darauf haben, welches Angebot den Zuschlag erhält.

Tobias Gasser vom Schweizer Radio und Fernsehen hat mich zur Bewertungsmethodik bei der Beschaffung des neuen Schweizer Kampfjets interviewt. Bei dieser Beschaffung wurde eine Bewertungsmethode verwendet, die alle Angebote paarweise miteinander vergleicht.

Folgend die Links zum

Radiobeitrag: https://www.srf.ch/audio/mein-tag/die-wahl-des-neuen-schweizer-kampfjets-geraet-unter-beschuss?id=12038661
Newsbeitrag: https://www.srf.ch/news/schweiz/kampfjet-beschaffung-juristisch-heikle-bewertungsmethode-beim-kampfjet-kauf
Das ganze Interview: https://soundcloud.com/tobgass/ahpferber?utm_source=Email&utm_campaign=social_sharing&utm_medium=widgetutm_content=https%3A%2F%2Fsoundcloud.com%2Ftobgass%2Fahpferber
Twitter: https://twitter.com/TobGass/status/1427519577274167296

Die Anwendung eines paarweisen Vergleichs klingt nach einer guten Idee und hat in der sogenannten AHP (Analytical Hierarchy Process)-Methode ihren Niederschlag gefunden. Durch die starre ordinale Punkteskala beim direkten Vergleich gehen aber wichtige Bewertungsinformationen verloren. Durch die Abhängigkeit der Angebote von allen anderen Angeboten bei der Bewertung kommt es in der Regel zu Bewertungsverzerrungen.

Vergleicht man eine Ausschreibung mit einem Wettbewerb im Bogenschiessen, dann weiß bei einem fairen Wettbewerb jeder Anbieter, wo der Zielkreis ist. Bei AHP kann kein Anbieter richtig abschätzen, wo der Zielkreis liegt, weil der Standort abhängig ist von den anderen Angeboten.

AHP ist dann eine sinnvolle Methodik, wenn nichtmetrische subjektive Kriterien bewertet werden sollen wie zum Beispiel Ästhetik, Geschmack, Ideen oder Konzepte. Bei der Bewertung von komplexen technischen Systemen, bei denen zum größten Teil objektive metrische Kriterien vorliegen, ist die AHP-Methodik bei öffentlichen Vergabeverfahren ungeeignet, da die Grundsätze der Transparenz sowie der Gleichbehandlung verletzt werden.

Dazu weitere Detailinformationen:
Der Informationsgehalt bei der Verwendung von metrischen Skalen (Kardinalskala) ist immer höher als bei der Verwendung von nichtmetrischen Skalen (topologische Skala). Aus diesem Grund sollten Kriterien, die als metrische Skalen darstellbar sind, auch in metrischen Skalen dargestellt werden. Eine Umwandlung (Transformation) von einer metrischen Skala in eine nichtmetrische Skala bedeutet immer einen Informationsverlust, der in der Regel zu Bewertungsverzerrungen führt.

Die Anzahl der Bewertungsstufen spielt bei der Bewertung eine nicht zu vernachlässigende Rolle. Eine sehr grobe Notenskala mit nur wenigen Notenstufen kann den sich unterscheidenden Kriterienerfüllungsgrad der Angebote nur sehr ungenau wiedergeben. Wichtige Differenzierungsmerkmale verschwinden dadurch und es kommt in der Regel insbesondere bei unscharfen (weichen) Bewertungen zu signifikanten Bewertungsverzerrungen. Dieser Effekt wird zusätzlich verstärkt, wenn die Notenskala bei der Bewertung nicht voll ausgeschöpft wird. Finden beispielsweise bei einer Punkteskala mit (0, 1, 2, …, 10) Punkten nur die Wertungspunkte (7, 8, 9, 10) oder nur die Wertungspunkte (0, 1, 2, 3) Anwendung ist die Differenzierungsmöglichkeit bei der Wertung deutlich eingeschränkt.

Dazu ein Zitat aus meinem im Januar 2022 erscheinenden Buch
Ferber in: Ferber/Zeiss, Bewertungskriterien und -matrizen im Vergabeverfahren, 2. Aufl., Köln 2022.: „Findet statt einer natürlicherweise vorhandenen metrischen Bewertungsskala eine Ordinalskala Anwendung, entsteht ein Informationsverlust, der umso größer ist, je weniger Wertungsstufen die Ordinalskala besitzt. Die Information über die wirklichen Abstände zwischen den Kriteriumsausprägungen der verschiedenen Angebote wird durch die Anwendung der Ordinalskala eliminiert und führt am Ende zu den bereits aufgezeigten Bewertungsverzerrungen. „Natura non facit saltus“ (Die Natur macht keine Sprünge) sollte ihren Niederschlag auch in einer kontinuierlichen statt einer sprunghaften Skala finden.

Kontinuität (Stetigkeit) ist allerdings ein rein mathematischer Begriff, der in einer Messung bzw. Bewertung so nicht umsetzbar ist. Mit Bezug auf Aristoteles‘ 1. Buch der Nikomachischen Ethik, 1094b „Denn es zeugt von einem gebildeten Menschen, auf jedem Gebiet nur so viel Genauigkeit zu verlangen, wie die Natur der Sache gestattet.“ wird eine eigentlich kontinuierliche Skala durch die Grenzen der Mess- bzw. Bewertungsgenauigkeit zu einer quasi-kontinuierlichen Skala mit kleinen Sprüngen.

Beim Bewerten reichen für metrische Kriterien in der Regel auch quasi-kontinuierliche Skalen vollkommen aus, da eine größere Genauigkeit in der Realität nicht benötigt wird. Solche quasi-kontinuierlichen Skalen sind streng genommen keine kontinuierlichen Bewertungsskalen, sondern Ordinalskalen, die als metrische Skalen mit einer Unschärfe interpretiert werden können. Die Unschärfe wird allerdings umso größer, je weniger Wertungsstufen eine solche Bewertungsskala besitzt bzw. je weniger Wertungsstufen bei einer solchen Bewertungsskala Anwendung finden.

Bei Bewertungen der Kriterien sollte die Genauigkeit der Wertung an die sinnvolle Wertbarkeit angepasst werden. Eine Punkteskala von 0 bis 10 mit einer Genauigkeit von zwei Dezimalstellen hinter dem Komma (0; 0,01; 0,02; …; 9,99; 10,00) besitzt insgesamt 1001 verschiedene Wertungsstufen und ist damit eine Größenordnung genauer als eine Punkteskala von 0 bis 10 mit einer Genauigkeit von einer Dezimalstelle hinter dem Komma (0; 0,1; 0,2; …; 9,9; 10,0) mit 101 verschiedenen Wertungsstufen. Eine Punkteskala von 0 bis 10 ohne Dezimalstellen hinter dem Komma (0; 1; 2; …; 9; 10) besitzt nur noch 11 verschiedene Wertungsstufen und ist deutlich ungenauer und unschärfer als die vorigen Punkteskalen.“

Donald G. Saari, Decisions and Elections, Cambridge 2001, p. 13: „The undeniable message (…) is that the winner of an election may more accurately reflect the choice of a decision procedure rather than the views and preferences of the voters. Stated in a different manner, if, by chance, we use the „wrong“ decision procedure, we can, inadvertently, make a serious error. To underscore this point, I occasionally joke during lectures that „For a price, I will come to your organization to design your election procedure. You will tell me who you want to win. After talking with the members of your organization to ascertain their preferences, I will construct a democratic voting procedure which will ensure the victory of your candidate.“ „