Тесты и бенчмарки
Depixelizing Pixel Art — смертельный бенчмарк для ИИ-агентов: ни один не прошел
Лето, приближается отпуск — захотелось провести нестандартный бенчмарк для ИИ-агентов. Вместо типовых задач вроде написать функцию для FizzBuzz или сделать todo-лист на React, автор дал агентам настоящую наукоёмкую задачу: реализовать алгоритм Depixelizing Pixel Art из статьи SIGGRAPH на Swift, без использования сторонних библиотек.
Правила простые: один промпт — одна реализация, без уточнений, без указаний на недочёты, без итераций правок. Результат: ни один из протестированных ИИ-агентов не смог выполнить задачу корректно с первого раза. Это ставит под сомнение их способность к решению нетривиальных алгоритмических проблем, которые выходят за рамки типовых бенчмарков.
Источник: habr.com