Тем временем, оказалось, что так называемые бенчмарки ии на самом деле не бенчмарки, а ерунда с невоспроизводимыми результатами.
Ну кто бы мог подумать, что это древнее дерьмо с давно уже отстиранных и перестиранных кальсон пациента вновь всплывет!
https://arxiv.org/abs/2411.12990
https://www.technologyreview.com/2024/11/26/1107346/the-way-we-measure-progress-in-ai-is-terrible/