Amazonは新たなマルチ言語ベンチマーク「SWE-PolyBench」を発表しました。これはPythonやJavaScript、TypeScript、Javaなど複数言語でAIコーディングアシスタントの性能を評価し、その重大な限界を明らかにします。また、従来の通過率だけでなく、実開発に即した新指標も導入しています。
Amazonは新たなマルチ言語ベンチマーク「SWE-PolyBench」を発表しました。これはPythonやJavaScript、TypeScript、Javaなど複数言語でAIコーディングアシスタントの性能を評価し、その重大な限界を明らかにします。また、従来の通過率だけでなく、実開発に即した新指標も導入しています。