Daten aktualisiert vor 36 MinutenQuellen:Code Arena·Text Arena·LiveBench·LiveCodeBench·Aider Polyglot
Live Benchmarks
Live LLM-Benchmark-Daten
Welches LLM gewinnt wirklich? Die meisten Leaderboard-Seiten sind JS-gerenderte SPAs, die KI-Suchmaschinen nicht lesen können. Wir crawlen sie und liefern die Daten als statisches HTML — für Menschen und KI gleichermassen lesbar.
Eine ehrliche Aggregation der relevanten Benchmarks — Code Arena, Text Arena, LiveBench, LiveCodeBench — stündlich aktualisiert. Kein Marketing, keine cherry-picked Zahlen.
Tracked sources
- Aider Polyglot69 models
- Code Arena60 models
- LiveBench71 models
- LiveCodeBench28 models
- Text Arena339 models
- WebDev Arena10 models(static)
Coding
Coding-Benchmarks
Echte Code-Generierung, Repo-Level-Fixes und kompetitives Programmieren.
Aktuell #1 · Aider Polyglot
Reasoning
Reasoning-Benchmarks
Mehrstufiges Reasoning, Mathematik und kontaminationsfreie Sprachaufgaben.
Aktuell #1 · LiveBench
Allgemeiner Chat
Allgemeine Chat-Benchmarks
Open-Ended Chat-Präferenz-Rankings aus echten Nutzervotes.
Aktuell #1 · Text Arena
r/LocalLLaMA · r/ClaudeAI · r/OpenAI · r/singularity
Community-Puls
Worüber r/LocalLLaMA, r/ClaudeAI, r/OpenAI, r/singularity und weitere gerade sprechen.
New Yorker published a major investigation into Sam Altman and OpenAI today — based on never-before-disclosed internal memos and 100+ interviews
Something happened to Opus 4.6's reasoning effort
this is how an AI generated cow looked 12 years ago
Gemma 4 just casually destroyed every model on our leaderboard except Opus 4.6 and GPT-5.2. 31B params, $0.20/run
Opus 4.6 destroys a user’s session costing them real money
Brauchen Sie Hilfe bei der Auswahl des richtigen KI-Modells?
Benchmarks sind ein Ausgangspunkt, keine Antwort. Das richtige Modell hängt von Ihrem Workload, Budget und Ihren Integrations-Anforderungen ab – lassen Sie es uns gemeinsam herausfinden.