ーTech for Human Evolutionー

AWS、SWE-PolyBench：マルチ言語対応AIコーディングアシスタント評価ベンチマークが実力の真実を暴く

AI（人工知能）ニュース

AWS　Headline News

TaTsu

[公開]

2025年4月24日8:36

[更新]2025年7月16日

tatsu0256_A_futuristic_digital_workspace_showing_multiple_pro_74efa617-6202-4ddd-8a67-cd4a3b9be078_1 - innovaTopia

2025年4月23日、Amazon Web Services（AWS）は「SWE-PolyBench」という新しいAIコーディングアシスタント評価用ベンチマークを発表した。このベンチマークは、複数のプログラミング言語にわたるAIコーディングアシスタントの性能を評価するために設計されている。

SWE-PolyBenchには、実際のGitHub課題から派生した2,110以上のコーディングチャレンジが含まれており、Java（165タスク）、JavaScript（1,017タスク）、TypeScript（729タスク）、Python（199タスク）の4つの言語をカバーしている。また、迅速な実験のための500課題のサブセット「SWE-PolyBench500」も用意されている。

このベンチマークの特徴は、従来の「パス率」（コード修正の成功率）だけでなく、「ファイルレベルのローカライゼーション」（修正が必要なファイルを特定する能力）や「コンクリート構文ツリー（CST）ノードレベルの検索」（変更が必要なコード構造の特定精度）など、より詳細な評価指標を導入している点である。

AWSのGenerative AIアプリケーションおよび開発者エクスペリエンス担当のApplied Sciences Director、Anoop Deorasによると、既存のベンチマーク「SWE-Bench」はPythonのみに焦点を当て、主にバグ修正タスクに限定されており、Djangoリポジトリが全タスクの45%以上を占めるという偏りがあった。SWE-PolyBenchではこれを拡張し、より包括的な評価を可能にしている。

初期評価の結果、AIコーディングアシスタントはPythonで最も高いパフォーマンスを示し、タスクの複雑さが増すにつれて性能が低下する傾向が明らかになった。特に3つ以上のファイルの修正が必要な場合に顕著な性能低下が見られた。

AmazonはSWE-PolyBenchのデータセットをHugging Faceで、評価ハーネスをGitHubで公開しており、専用のリーダーボードも設置している。今後、さらに言語やタスクの種類を拡張する計画もあるという。

from:Amazon’s SWE-PolyBench just exposed the dirty secret about your AI coding assistant

【編集部解説】

AIコーディングアシスタントの実力を測る新たな指標が登場しました。Amazon Web Services（AWS）が2025年4月23日に発表した「SWE-PolyBench」は、AIコーディングアシスタントの評価方法に革新をもたらす可能性を秘めています。

従来のベンチマーク「SWE-Bench」がPythonのみに焦点を当て、主にバグ修正タスクに限定され、さらにDjangoリポジトリが全タスクの45%以上を占めるという偏りがあったのに対し、SWE-PolyBenchは4つのプログラミング言語（Java、JavaScript、TypeScript、Python）にわたる2,110の実世界の課題を含む包括的な評価システムです。これにより、多言語環境での実際の開発シナリオに近い形でAIコーディングアシスタントの能力を測定できるようになりました。

注目すべきは、SWE-PolyBenchが単なる「パス率」（問題解決の成功率）だけでなく、「ファイルレベルのローカライゼーション」や「コンクリート構文ツリー（CST）ノードレベルの検索」といった新しい評価指標を導入している点です。これらの指標により、AIがコードベースをどれだけ理解し、適切な修正箇所を特定できるかという、より深い洞察が得られます。

実際の評価結果からは興味深いパターンが浮かび上がっています。AIコーディングアシスタントはPythonで最も高いパフォーマンスを示す一方、他の言語では性能が低下する傾向があります。これは、多くのAIモデルのトレーニングデータにPythonが多く含まれていることが一因と考えられます。

また、タスクの複雑さが増すにつれて性能が低下する点も重要です。特に3つ以上のファイルの修正が必要な場合に顕著な性能低下が見られました。これは現在のAIコーディングアシスタントが単純なタスクには強いものの、複雑な問題解決能力にはまだ課題があることを示しています。

SWE-PolyBenchの登場は、AIコーディングツールの実用性を評価する上で大きな意義を持ちます。GitHub CopilotやAmazon Q Codeなど、多くの企業がAIコーディングアシスタントを提供する中、その実際の能力を客観的に評価する基準が必要とされていました。

企業がAIコーディングツールを導入する際、このベンチマークは「マーケティングの誇大宣伝」と「実際の技術的能力」を区別するための貴重な指標となるでしょう。特に複数の言語を使用する開発環境では、言語間でのAIの性能差を理解することが重要です。

開発者にとっても、AIコーディングアシスタントの強みと弱みを理解することで、より効果的な活用方法を見出せるようになります。例えば、単純なタスクや特定の言語での開発ではAIに任せ、複雑な問題や重要な部分は人間が担当するといった役割分担が考えられます。

長期的には、このようなベンチマークの存在がAIコーディングアシスタントの進化を促進するでしょう。多様な言語やタスクでの評価が行われることで、より汎用的で堅牢なAIツールの開発が進むことが期待されます。

AWSのGenerative AIアプリケーションおよび開発者エクスペリエンス担当ディレクター、Anoop Deorasは「将来的にはこのプロセスをさらに拡張し、4つの言語を超えて、3つのタスクを超えて拡張できることを期待しています」と述べており、今後さらに包括的なベンチマークへと発展する可能性があります。

SWE-PolyBenchはHugging FaceとGitHubで公開されており、誰でも利用できる点も重要です。これにより、研究者や開発者が独自にAIモデルを評価したり、ベンチマーク自体を改良したりすることが可能になります。

AIコーディングアシスタントは開発者の生産性を大幅に向上させる可能性を秘めていますが、SWE-PolyBenchの結果が示すように、まだ発展途上の技術です。このベンチマークを通じて、AIの限界を理解し、人間の開発者とAIの最適な協業方法を模索していくことが、今後のソフトウェア開発の鍵となるでしょう。

【用語解説】

SWE-PolyBench:
Amazon Web Servicesが開発した多言語対応のAIコーディングアシスタント評価用ベンチマーク。Java、JavaScript、TypeScript、Pythonの4言語にわたる2,110のコーディングチャレンジを含む。実際のGitHub課題から派生した問題を使用している。

SWE-Bench:
既存のAIコーディングアシスタント評価ベンチマーク。Pythonのみに焦点を当て、主にバグ修正タスクに限定されており、Djangoリポジトリが全タスクの45%以上を占めるという偏りがある。

パス率:
AIコーディングアシスタントが生成したコード修正（パッチ）が問題を正常に解決できた割合を示す基本的な評価指標。

ファイルレベルのローカライゼーション:
リポジトリ内のどのファイルが修正を必要とするかをAIが正確に特定できる能力を評価する指標。

コンクリート構文ツリー（CST）:
プログラムのソースコードを構文的に表現する木構造。AIがコード内の具体的な修正箇所をどれだけ正確に特定できるかを評価するために使用される。

リポジトリレベル評価:
単一のファイルだけでなく、複数のファイルからなる実際のソフトウェアプロジェクト（リポジトリ）全体に対するAIの理解と対応能力を評価すること。

ポリグロット開発:
複数のプログラミング言語を使用するソフトウェア開発アプローチ。現代の企業開発環境では一般的。

【参考リンク】

Amazon Web Services (AWS)（外部）
クラウドコンピューティングサービスを提供する世界最大手。SWE-PolyBenchを開発した企業。

Amazon Q Developer（外部）
AWSが提供するAIコーディングアシスタント。コード生成、テスト、デバッグなど開発者の作業を支援。

SWE-PolyBench GitHub（外部）
SWE-PolyBenchの評価ハーネスが公開されているGitHubリポジトリ。

SWE-PolyBench Hugging Face（外部）
SWE-PolyBenchのデータセットが公開されているHugging Faceページ。

GitHub（外部）
世界最大のソフトウェア開発プラットフォーム。SWE-PolyBenchの問題はここから収集。

【参考動画】

【編集部後記】

AIコーディングアシスタントを活用されている開発者の方々、SWE-PolyBenchの結果をどう感じられますか？普段の開発で感じるAIツールの強みや弱みと一致していますか？また、まだ使ったことがない方も、この機会にAIコーディングアシスタントを試してみるのも良いかもしれません。複数の言語を扱うプロジェクトでは、どの言語でAIの支援が最も役立つか、ぜひ実際の体験をSNSでシェアしていただけると嬉しいです。AIと人間の最適な協業方法を一緒に探っていきましょう。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

AWS　Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧