WrongcapabilityConfidence: 75%

SWE-Bench Verified reaches 85% by mid-2025

From AI 2027 scenario. Best actual: 74.5% (Opus 4.1). Later reached 81% by EOY 2025 but missed the mid-2025 target.

Source: Daniel KokotajloClaimed: 2025-04-03Target: 2025-06-30Resolved: 2025-06-30

ai-2027swe-benchcodingbenchmarks