Test des Korrekturtools von Fobizz auf Schwächen bei der Bewertung von Abgaben.
Die Studie offenbart z.B. große Schwankung bei Bewertungen der gleichen Abgaben.
Aktuell ist es nur ein preprint (under review). Die finale Version muss noch abgewartet werden
https://arxiv.org/abs/2412.06651
#blueLZ
Die Studie offenbart z.B. große Schwankung bei Bewertungen der gleichen Abgaben.
Aktuell ist es nur ein preprint (under review). Die finale Version muss noch abgewartet werden
https://arxiv.org/abs/2412.06651
#blueLZ
Comments
1️⃣ Die Qualität des "Outputs" wird sich durch präzisere Instruktion und ggf. weiterer Kontext verbessern lassen. Aber selbst mit einem auf Reasoning ausgelegten Modell bleiben die die Grenzen der Technologie. Eine 100 prozentige Reliabilität wird es nicht geben.
1|2
Die Vorstellung, es gäbe eine korrekte Einordnung der in der Studie verwendeten Texte auf einer Skala von 0 bis 15, ist falsch. Das ist ein grundlegendes Erkenntnisproblem.
2|2
Es stellt sich zudem die Frage nach der Validität d. Eigenschaften d. Texte. Das ließe sich aber nachliefern.
Jedoch bleibt die Herausforderung: Die Bewertung ist nicht zuverlässig. Was nicht kommuniziert wird.
Ich sehe den „Skandal“ nicht.
Eine Bewertung (allein) durch so ein KI-Tool ist lässt sich ethisch nicht rechtfertigen. Sie würde in ein Verantwortungsvakuum führen.
Das Tool war glaube ich immer als experimentell gekennzeichnet.
1|2
Die Verantwortung liegt bei den Nutzer:innen.
2|2
Die Autor:innen argumentieren, dass sich die identifizierten Schwächen aus der Architektur von Tools ergibt, die auf LLMs basieren. Daher ließen sich die Schwächen auch nicht ohne weiteres Beheben
https://rainermuehlhoff.de/fobizz-KI-korrekturhilfe-test-studie/