Amazonが新たに公開した「SWE-PolyBench」は、Python、JavaScript、TypeScript、Javaに対応した多言語ベンチマークです。従来の合格率だけでなく、実際の開発タスクに役立つ新たな評価基準を導入し、AIコーディングアシスタントの重大な課題や限界を明らかにしました。
Amazonが新たに公開した「SWE-PolyBench」は、Python、JavaScript、TypeScript、Javaに対応した多言語ベンチマークです。従来の合格率だけでなく、実際の開発タスクに役立つ新たな評価基準を導入し、AIコーディングアシスタントの重大な課題や限界を明らかにしました。