Live LLM-Benchmark-Daten

Welches LLM gewinnt wirklich? Die meisten Leaderboard-Seiten sind JS-gerenderte SPAs, die KI-Suchmaschinen nicht lesen können. Wir crawlen sie und liefern die Daten als statisches HTML — für Menschen und KI gleichermassen lesbar.

Eine ehrliche Aggregation der relevanten Benchmarks — Code Arena, Text Arena, LiveBench über 7 Kategorien — zweimal täglich aktualisiert. Kein Marketing, keine cherry-picked Zahlen.

Verfolgte Quellen

Code Arena96
LiveBench90
LiveBench Agentic Coding90
LiveBench Coding90
LiveBench Data Analysis90
LiveBench Instruction Following90
LiveBench Language90
LiveBench Math90
LiveBench Reasoning90
Text Arena369

/ Kategorien

Coding

Coding-Benchmarks

Code-Generierung und -Vervollständigung aus Code Arena (Elo) und LiveBench.

Aktuell #1 · Code Arena

Claude Fable 51649 Elo

Leaderboards ansehen → →

Agentic Coding

Agentic-Coding-Benchmarks

Mehrstufige Code-Bearbeitung und Tool-Nutzung — agentische Workflows aus LiveBench.

Aktuell #1 · LiveBench Agentic Coding

GLM 5.273.3 %

Leaderboards ansehen → →

Reasoning

Reasoning-Benchmarks

Logik, Deduktion und Schlussfolgerung aus LiveBench.

Aktuell #1 · LiveBench

GPT-5.5 Thinking xHigh Effort80.7 %

Leaderboards ansehen → →

Mathematik

Mathematik-Benchmarks

Numerisches Reasoning und mathematische Problemlösung aus LiveBench.

Aktuell #1 · LiveBench Math

GPT-5.5 Thinking xHigh Effort96.3 %

Leaderboards ansehen → →

Datenanalyse

Datenanalyse-Benchmarks

Strukturierte Dateninterpretation, Abfragen und Analyse aus LiveBench.

Aktuell #1 · LiveBench Data Analysis

GPT-5.5 Thinking xHigh Effort81.1 %

Leaderboards ansehen → →

Sprache

Sprach-Benchmarks

Chat-Präferenz-Rankings (Text Arena Elo) und Sprachverständnis (LiveBench).

Aktuell #1 · Text Arena

Claude Fable 51509 Elo

Leaderboards ansehen → →

Instruction Following

Instruction-Following-Benchmarks

Einhaltung von Formatvorgaben und komplexen Anweisungen aus LiveBench.

Aktuell #1 · LiveBench Instruction Following

Gemini 3.1 Pro Preview High79.1 %

Leaderboards ansehen → →

/ r/localllama · r/claudeai · r/openai · r/singularity

Community-Puls

Worüber r/LocalLLaMA, r/ClaudeAI, r/OpenAI, r/singularity und weitere gerade sprechen.

Noch keine Daten – der Crawler ist noch nicht gelaufen.

/ Live Benchmarks

Brauchen Sie Hilfe bei der Auswahl des richtigen KI-Modells?

Benchmarks sind ein Ausgangspunkt, keine Antwort. Das richtige Modell hängt von Ihrem Workload, Budget und Ihren Integrations-Anforderungen ab – lassen Sie es uns gemeinsam herausfinden.

Kontakt aufnehmen →