/ Live Benchmarks
Live LLM-Benchmark-Daten
Welches LLM gewinnt wirklich? Die meisten Leaderboard-Seiten sind JS-gerenderte SPAs, die KI-Suchmaschinen nicht lesen können. Wir crawlen sie und liefern die Daten als statisches HTML — für Menschen und KI gleichermassen lesbar.
Eine ehrliche Aggregation der relevanten Benchmarks — Code Arena, Text Arena, LiveBench über 7 Kategorien — zweimal täglich aktualisiert. Kein Marketing, keine cherry-picked Zahlen.
Verfolgte Quellen
- Code Arena81
- LiveBench82
- LiveBench Agentic Coding82
- LiveBench Coding82
- LiveBench Data Analysis82
- LiveBench Instruction Following82
- LiveBench Language82
- LiveBench Math82
- LiveBench Reasoning82
- Text Arena360
/ Kategorien
Coding
Coding-Benchmarks
Code-Generierung und -Vervollständigung aus Code Arena (Elo) und LiveBench.
Aktuell #1 · Code Arena
Agentic Coding
Agentic-Coding-Benchmarks
Mehrstufige Code-Bearbeitung und Tool-Nutzung — agentische Workflows aus LiveBench.
Aktuell #1 · LiveBench Agentic Coding
Reasoning
Reasoning-Benchmarks
Logik, Deduktion und Schlussfolgerung aus LiveBench.
Aktuell #1 · LiveBench
Mathematik
Mathematik-Benchmarks
Numerisches Reasoning und mathematische Problemlösung aus LiveBench.
Aktuell #1 · LiveBench Math
Datenanalyse
Datenanalyse-Benchmarks
Strukturierte Dateninterpretation, Abfragen und Analyse aus LiveBench.
Aktuell #1 · LiveBench Data Analysis
Sprache
Sprach-Benchmarks
Chat-Präferenz-Rankings (Text Arena Elo) und Sprachverständnis (LiveBench).
Aktuell #1 · Text Arena
Instruction Following
Instruction-Following-Benchmarks
Einhaltung von Formatvorgaben und komplexen Anweisungen aus LiveBench.
Aktuell #1 · LiveBench Instruction Following
/ r/localllama · r/claudeai · r/openai · r/singularity
Community-Puls
Worüber r/LocalLLaMA, r/ClaudeAI, r/OpenAI, r/singularity und weitere gerade sprechen.
Noch keine Daten – der Crawler ist noch nicht gelaufen.
/ Live Benchmarks
Brauchen Sie Hilfe bei der Auswahl des richtigen KI-Modells?
Benchmarks sind ein Ausgangspunkt, keine Antwort. Das richtige Modell hängt von Ihrem Workload, Budget und Ihren Integrations-Anforderungen ab – lassen Sie es uns gemeinsam herausfinden.