Aincarn Index
AIモデル独自ランキング
公開ベンチマークの正規化スコアを基礎点に、Aincarn Labの実測評価で補正した独自インデックスです。9軸を10段階で評価し、外部データの丸写しではない判断材料を提供します。
LLM Ranking
テキスト・推論モデル総合
リサーチ・文章・コード・分析・エージェントの5軸に、日本語・速度・長文脈・コスト効率を加えた9軸の10段階評価です。 「*」付きのスコアはAincarn Labの実測補正が入っています。
| # | モデル | Index | リサーチ | 文章 | コード | 分析 | エージェント | 日本語 | 速度 | 長文脈 | コスト効率 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview Google$4.50 / 1M tokensLab実測補正あり | 9.0 /10 | 10 | 10 | 10 | 9 | 9 | 9 | 7 | 8 | 9 |
| 2 | GPT-5.5 (xhigh) OpenAI$11.25 / 1M tokensLab実測補正あり | 8.9 /10 | 10 | 10 | 10 | 10 | 10 | 9 | 3 | 8 | 9 |
| 3 | Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) Anthropic$20.00 / 1M tokens | 8.8 /10 | 10 | 10 | 10 | 10 | 10 | 9 | 4 | 8 | 9 |
| 4 | GPT-5.4 (xhigh) OpenAI$5.63 / 1M tokens | 8.8 /10 | 10 | 10 | 10 | 10 | 10 | 9 | 5 | 8 | 9 |
| 5 | Claude Opus 4.8 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens | 8.7 /10 | 10 | 10 | 10 | 10 | 10 | 9 | 3 | 8 | 9 |
| 6 | GPT-5.5 (high) OpenAI$11.25 / 1M tokens | 8.7 /10 | 10 | 10 | 10 | 10 | 10 | 9 | 3 | 8 | 9 |
| 7 | Qwen3.7 Max Alibaba$3.75 / 1M tokens | 8.7 /10 | 9 | 9 | 8 | 9 | 9 | 8 | 9 | 8 | 8 |
| 8 | Gemini 3.5 Flash (high) Google$3.38 / 1M tokens | 8.6 /10 | 9 | 9 | 8 | 8 | 9 | 9 | 10 | 8 | 8 |
| 9 | Gemini 3.5 Flash (medium) Google$3.38 / 1M tokens | 8.6 /10 | 9 | 9 | 7 | 8 | 8 | 9 | 10 | 8 | 8 |
| 10 | GPT-5.4 mini (xhigh) OpenAI$1.69 / 1M tokens | 8.5 /10 | 8 | 8 | 9 | 8 | 8 | 9 | 9 | 8 | 8 |
| 11 | GPT-5.5 (medium) OpenAI$11.25 / 1M tokens | 8.5 /10 | 10 | 10 | 9 | 10 | 10 | 9 | 3 | 8 | 8 |
| 12 | Claude Opus 4.7 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens | 8.3 /10 | 10 | 10 | 9 | 9 | 9 | 9 | 3 | 8 | 8 |
| 13 | Gemini 3 Flash Preview (Reasoning) Google$1.13 / 1M tokens | 8.3 /10 | 8 | 8 | 7 | 10 | 8 | 9 | 10 | 8 | 8 |
| 14 | GPT-5.3 Codex (xhigh) OpenAI$4.81 / 1M tokens | 8.3 /10 | 9 | 9 | 9 | 9 | 9 | 9 | 4 | 8 | 8 |
| 15 | GPT-5.2 (xhigh) OpenAI$4.81 / 1M tokens | 8.2 /10 | 9 | 9 | 8 | 10 | 8 | 9 | 4 | 8 | 8 |
| 16 | Grok 4.3 (high) xAI$1.56 / 1M tokens | 8.2 /10 | 9 | 9 | 7 | 8 | 8 | 8 | 9 | 8 | 8 |
| 17 | GPT-5.1 (high) OpenAI$3.44 / 1M tokens | 8.1 /10 | 8 | 8 | 8 | 10 | 8 | 9 | 6 | 8 | 8 |
| 18 | Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic$6.00 / 1M tokens | 8.0 /10 | 9 | 9 | 9 | 9 | 9 | 9 | 4 | 8 | 8 |
| 19 | GPT-5 Codex (high) OpenAI$3.44 / 1M tokens | 8.0 /10 | 7 | 7 | 7 | 10 | 7 | 9 | 10 | 8 | 7 |
| 20 | Grok 4.20 0309 v2 (Reasoning) xAI$3.00 / 1M tokens | 8.0 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 10 | 8 | 8 |
| 21 | Grok 4.20 0309 (Reasoning) xAI$3.00 / 1M tokens | 8.0 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 10 | 8 | 8 |
| 22 | Claude Opus 4.7 (Non-reasoning, High Effort) Anthropic$10.00 / 1M tokens | 7.9 /10 | 9 | 9 | 9 | 9 | 9 | 9 | 2 | 8 | 8 |
| 23 | Gemini 3.5 Flash (minimal) Google$3.38 / 1M tokens | 7.9 /10 | 7 | 7 | 8 | 8 | 8 | 9 | 10 | 8 | 7 |
| 24 | GPT-5.1 Codex (high) OpenAI$3.44 / 1M tokens | 7.9 /10 | 7 | 7 | 6 | 10 | 7 | 9 | 10 | 8 | 7 |
| 25 | GPT-5.5 (low) OpenAI$11.25 / 1M tokens | 7.9 /10 | 9 | 9 | 9 | 9 | 9 | 9 | 3 | 8 | 8 |
| 26 | Claude Opus 4.5 (Reasoning) Anthropic$10.00 / 1M tokens | 7.9 /10 | 8 | 8 | 8 | 10 | 8 | 9 | 3 | 8 | 8 |
| 27 | Qwen3.7 Plus Alibaba$0.59 / 1M tokens | 7.9 /10 | 9 | 9 | 8 | 8 | 9 | 8 | 3 | 8 | 9 |
| 28 | GPT-5.2 Codex (xhigh) OpenAI$4.81 / 1M tokens | 7.9 /10 | 8 | 8 | 7 | 8 | 8 | 9 | 7 | 8 | 8 |
| 29 | DeepSeek V4 Pro (Reasoning, Max Effort) DeepSeek$0.54 / 1M tokens | 7.8 /10 | 9 | 9 | 8 | 8 | 8 | 8 | 4 | 8 | 8 |
| 30 | Kimi K2.6 Kimi$1.71 / 1M tokens | 7.8 /10 | 9 | 9 | 8 | 9 | 9 | 8 | 2 | 8 | 8 |
| 31 | Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens | 7.8 /10 | 9 | 9 | 8 | 8 | 9 | 9 | 3 | 8 | 8 |
| 32 | MiniMax-M3 MiniMax$0.53 / 1M tokens | 7.8 /10 | 9 | 9 | 7 | 8 | 8 | 8 | 3 | 8 | 8 |
| 33 | MiMo-V2.5-Pro Xiaomi$0.54 / 1M tokens | 7.8 /10 | 9 | 9 | 8 | 8 | 8 | 8 | 2 | 8 | 9 |
| 34 | GPT-5.4 nano (xhigh) OpenAI$0.46 / 1M tokens | 7.8 /10 | 7 | 7 | 7 | 7 | 7 | 9 | 8 | 8 | 8 |
| 35 | Nemotron 3 Ultra 550B A55B (Reasoning) NVIDIA$1.18 / 1M tokens | 7.7 /10 | 8 | 8 | 6 | 7 | 7 | 8 | 9 | 8 | 8 |
| 36 | GLM-5.1 (Reasoning) Z AI$2.15 / 1M tokens | 7.7 /10 | 9 | 9 | 7 | 8 | 8 | 8 | 4 | 8 | 8 |
| 37 | GLM-5 (Reasoning) Z AI$1.55 / 1M tokens | 7.6 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 4 | 8 | 8 |
| 38 | Muse Spark Meta$0.00 / 1M tokens | 7.6 /10 | 9 | 9 | 8 | 8 | 8 | 8 | 1 | 8 | 9 |
| 39 | MiMo-V2.5 Xiaomi$0.17 / 1M tokens | 7.6 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 5 | 8 | 8 |
| 40 | GPT-5.4 (low) OpenAI$5.91 / 1M tokens | 7.6 /10 | 8 | 8 | 8 | 8 | 8 | 9 | 4 | 8 | 8 |
| 41 | Qwen3.6 Max Preview Alibaba$2.92 / 1M tokens | 7.6 /10 | 9 | 9 | 8 | 8 | 8 | 8 | 2 | 8 | 8 |
| 42 | GPT-5 (high) OpenAI$3.44 / 1M tokens | 7.6 /10 | 7 | 7 | 6 | 10 | 7 | 9 | 6 | 8 | 7 |
| 43 | DeepSeek V4 Pro (Reasoning, High Effort) DeepSeek$0.54 / 1M tokens | 7.5 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 4 | 8 | 8 |
| 44 | Gemini 3 Pro Preview (high) Google$4.50 / 1M tokens | 7.5 /10 | 8 | 8 | 8 | 10 | 8 | 9 | 1 | 8 | 8 |
| 45 | KAT Coder Pro V2 KwaiKAT$0.53 / 1M tokens | 7.5 /10 | 7 | 7 | 8 | 8 | 7 | 8 | 7 | 8 | 8 |
| 46 | Grok 4.3 (medium) xAI$1.56 / 1M tokens | 7.5 /10 | 8 | 8 | 6 | 7 | 7 | 8 | 8 | 8 | 7 |
| 47 | Step 3.7 Flash StepFun$0.44 / 1M tokens | 7.5 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 10 | 8 | 7 |
| 48 | GLM-4.7 (Reasoning) Z AI$1.00 / 1M tokens | 7.5 /10 | 7 | 7 | 6 | 10 | 7 | 8 | 6 | 8 | 8 |
| 49 | GPT-5 (medium) OpenAI$3.44 / 1M tokens | 7.5 /10 | 7 | 7 | 7 | 10 | 7 | 9 | 5 | 8 | 7 |
| 50 | Qwen3.6 Plus Alibaba$1.13 / 1M tokens | 7.5 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 3 | 8 | 8 |
| 51 | DeepSeek V4 Flash (Reasoning, Max Effort) DeepSeek$0.17 / 1M tokens | 7.4 /10 | 8 | 8 | 7 | 7 | 7 | 8 | 5 | 8 | 8 |
| 52 | MiniMax-M2.7 MiniMax$0.53 / 1M tokens | 7.4 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 2 | 8 | 8 |
| 53 | Claude Opus 4.6 (Non-reasoning, High Effort) Anthropic$10.00 / 1M tokens | 7.4 /10 | 8 | 8 | 8 | 8 | 8 | 9 | 3 | 8 | 7 |
| 54 | Claude Opus 4.5 (Non-reasoning) Anthropic$10.00 / 1M tokens | 7.4 /10 | 7 | 7 | 7 | 10 | 7 | 9 | 3 | 8 | 7 |
| 55 | GPT-5.2 (medium) OpenAI$4.81 / 1M tokens | 7.4 /10 | 8 | 8 | 7 | 10 | 8 | 9 | 1 | 8 | 8 |
| 56 | MiniMax-M2.5 MiniMax$0.53 / 1M tokens | 7.3 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 9 | 8 | 7 |
| 57 | Claude 4.5 Sonnet (Reasoning) Anthropic$6.00 / 1M tokens | 7.3 /10 | 7 | 7 | 6 | 10 | 7 | 9 | 3 | 8 | 7 |
| 58 | Claude Sonnet 4.6 (Non-reasoning, High Effort) Anthropic$6.00 / 1M tokens | 7.3 /10 | 7 | 7 | 8 | 8 | 8 | 9 | 3 | 8 | 7 |
| 59 | MiMo-V2-Pro Xiaomi$1.50 / 1M tokens | 7.2 /10 | 8 | 8 | 7 | 8 | 8 | 8 | 2 | 8 | 8 |
| 60 | Qwen3.6 35B A3B (Reasoning) Alibaba$0.56 / 1M tokens | 7.2 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 8 | 8 | 7 |
| 61 | MiMo-V2-Flash (Feb 2026) Xiaomi$0.15 / 1M tokens | 7.2 /10 | 7 | 7 | 6 | 6 | 6 | 8 | 9 | 8 | 7 |
| 62 | MiMo-V2-Omni-0327 Xiaomi$0.80 / 1M tokens | 7.1 /10 | 8 | 8 | 6 | 7 | 7 | 8 | 4 | 8 | 8 |
| 63 | Hy3-preview (Reasoning) Tencent$0.20 / 1M tokens | 7.1 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 6 | 8 | 7 |
| 64 | Qwen3.5 122B A10B (Reasoning) Alibaba$1.10 / 1M tokens | 7.1 /10 | 7 | 7 | 6 | 6 | 7 | 8 | 8 | 8 | 7 |
| 65 | Kimi K2.5 (Reasoning) Kimi$1.19 / 1M tokens | 7.0 /10 | 8 | 8 | 7 | 7 | 7 | 8 | 3 | 8 | 8 |
| 66 | Qwen3.5 397B A17B (Reasoning) Alibaba$1.35 / 1M tokens | 7.0 /10 | 8 | 8 | 7 | 7 | 7 | 8 | 3 | 8 | 7 |
| 67 | Grok 4.3 (low) xAI$1.56 / 1M tokens | 7.0 /10 | 7 | 7 | 5 | 6 | 7 | 8 | 7 | 8 | 7 |
| 68 | Claude Sonnet 4.6 (Non-reasoning, Low Effort) Anthropic$6.00 / 1M tokens | 7.0 /10 | 7 | 7 | 7 | 7 | 7 | 9 | 3 | 8 | 7 |
| 69 | MiMo-V2-Omni Xiaomi$0.00 / 1M tokens | 7.0 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 5 | 8 | 8 |
| 70 | Claude 4.1 Opus (Reasoning) Anthropic$30.00 / 1M tokens | 7.0 /10 | 7 | 7 | 6 | 10 | 7 | 9 | 2 | 8 | 7 |
| 71 | Qwen3.6 27B (Reasoning) Alibaba$1.35 / 1M tokens | 6.9 /10 | 8 | 8 | 6 | 7 | 7 | 8 | 3 | 8 | 7 |
| 72 | DeepSeek V4 Flash (Reasoning, High Effort) DeepSeek$0.17 / 1M tokens | 6.8 /10 | 8 | 8 | 7 | 7 | 7 | 8 | 1 | 8 | 8 |
| 73 | DeepSeek V3.2 (Reasoning) DeepSeek$0.34 / 1M tokens | 6.9 /10 | 7 | 7 | 6 | 10 | 7 | 8 | 1 | 8 | 8 |
| 74 | GLM-5.1 (Non-reasoning) Z AI$2.15 / 1M tokens | 6.8 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 4 | 8 | 7 |
| 75 | Qwen3.5 27B (Reasoning) Alibaba$0.82 / 1M tokens | 6.8 /10 | 7 | 7 | 6 | 6 | 7 | 8 | 5 | 8 | 7 |
| 76 | Grok 4 xAI$11.00 / 1M tokens | 6.8 /10 | 7 | 7 | 7 | 10 | 7 | 8 | 1 | 8 | 7 |
| 77 | GLM-5-Turbo Z AI$0.00 / 1M tokens | 6.8 /10 | 8 | 8 | 6 | 7 | 7 | 8 | 1 | 8 | 8 |
| 78 | GPT-5.5 Instant (May 2026) OpenAI$11.25 / 1M tokens | 6.7 /10 | 7 | 7 | 8 | 7 | 7 | 9 | 1 | 8 | 7 |
| 79 | Kimi K2.6 (Non-reasoning) Kimi$1.71 / 1M tokens | 6.7 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 2 | 8 | 7 |
| 80 | GLM 5V Turbo (Reasoning) Z AI$0.00 / 1M tokens | 6.5 /10 | 7 | 7 | 6 | 7 | 7 | 8 | 1 | 8 | 8 |
Lab adjustments
実測補正の内訳
Gemini 3.1 Pro Preview の文章軸 +4.8点
2026年6月10日のLab実測「ChatGPT PlusとAPI利用の記事構成を最新モデルで比較」で Gemini3.1 Pro拡張 が 平均4.2点(5点満点)→ 検証ログを見る
Gemini 3.1 Pro Preview のコード軸 +3.2点
2026年6月10日のLab実測「TODOアプリの完成物でコード生成力を比較」で Gemini3.1 Pro(High) が 平均3.8点(5点満点)→ 検証ログを見る
Gemini 3.1 Pro Preview のリサーチ軸 +4点
2026年6月10日のLab実測「AIサブスク選びの判断軸を比較」で Gemini3.1 Pro拡張 DeepResearch が 平均4点(5点満点)→ 検証ログを見る
GPT-5.5 (xhigh) の文章軸 +7.2点
2026年6月10日のLab実測「ChatGPT PlusとAPI利用の記事構成を最新モデルで比較」で GPT5.5 Thinking拡張 が 平均4.8点(5点満点)→ 検証ログを見る
GPT-5.5 (xhigh) のコード軸 +5.6点
2026年6月10日のLab実測「TODOアプリの完成物でコード生成力を比較」で GPT5.5 非常に高い が 平均4.4点(5点満点)→ 検証ログを見る
GPT-5.5 (xhigh) のリサーチ軸 +5.6点
2026年6月10日のLab実測「AIサブスク選びの判断軸を比較」で GPT5.5 Thinking拡張 DeepResearch が 平均4.4点(5点満点)→ 検証ログを見る
Image Ranking
画像生成モデル
| # | モデル | Index | 性能 | コスト効率 | 速度 |
|---|---|---|---|---|---|
| 1 | GPT Image 2 (high) OpenAI | 9.0 /10 | 10 | 9 | 6 |
| 2 | Riverflow 2.0 Sourceful | 8.3 /10 | 9 | 8 | 6 |
| 3 | GPT Image 1.5 (high) OpenAI | 8.0 /10 | 9 | 8 | 6 |
| 4 | HiDream-O1-Image-1.5 HiDream | 8.0 /10 | 9 | 8 | 6 |
| 5 | GPT Image 1.5 (high) OpenAI | 8.0 /10 | 9 | 8 | 6 |
| 6 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 8.0 /10 | 9 | 8 | 6 |
| 7 | GPT Image 2 (high) OpenAI | 8.0 /10 | 9 | 8 | 6 |
| 8 | Riverflow 2.0 Sourceful | 7.9 /10 | 8 | 8 | 6 |
| 9 | Nano Banana Pro (Gemini 3 Pro Image) | 7.9 /10 | 8 | 8 | 6 |
| 10 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 7.8 /10 | 8 | 8 | 6 |
Video Ranking
動画生成モデル
| # | モデル | Index | 性能 | コスト効率 | 速度 |
|---|---|---|---|---|---|
| 1 | Dreamina Seedance 2.0 720p ByteDance Seed | 8.5 /10 | 9 | 9 | 6 |
| 2 | grok-imagine-video xAI | 8.3 /10 | 9 | 8 | 6 |
| 3 | grok-imagine-video-1.5-preview xAI | 8.3 /10 | 9 | 8 | 6 |
| 4 | PixVerse V6 PixVerse | 8.3 /10 | 9 | 8 | 6 |
| 5 | GenFlare 2.0 Baidu | 8.1 /10 | 9 | 8 | 6 |
| 6 | HappyHorse-1.0 Alibaba-ATH | 8.0 /10 | 9 | 8 | 6 |
| 7 | HappyHorse-1.0 Alibaba-ATH | 8.0 /10 | 9 | 8 | 6 |
| 8 | Kling 2.5 Turbo 1080p KlingAI | 7.9 /10 | 8 | 8 | 6 |
| 9 | Kling 3.0 1080p (Pro) KlingAI | 7.9 /10 | 8 | 8 | 6 |
| 10 | Vidu Q3 Pro Vidu | 7.9 /10 | 8 | 8 | 6 |
Audio Ranking
音声合成モデル
| # | モデル | Index | 性能 | コスト効率 | 速度 |
|---|---|---|---|---|---|
| 1 | Fun-Realtime-TTS Alibaba | 7.2 /10 | 8 | 7 | 6 |
| 2 | Gemini 3.1 Flash TTS | 7.1 /10 | 7 | 7 | 6 |
| 3 | Realtime TTS-2 - Research Preview Inworld | 7.0 /10 | 7 | 7 | 6 |
| 4 | Sonic 3.5 Cartesia | 6.9 /10 | 7 | 7 | 6 |
| 5 | xAI Text to Speech xAI | 6.9 /10 | 7 | 7 | 6 |
| 6 | Realtime TTS 1.5 Max Inworld | 6.9 /10 | 7 | 7 | 6 |
| 7 | Async Flash v1.5 async | 6.7 /10 | 7 | 7 | 6 |
| 8 | StepAudio 2.5 TTS StepFun | 6.6 /10 | 7 | 7 | 6 |
| 9 | Eleven v3 ElevenLabs | 6.6 /10 | 7 | 7 | 6 |
| 10 | Speech 2.8 HD MiniMax | 6.5 /10 | 7 | 7 | 6 |
Music Ranking
音楽生成モデル
| # | モデル | Index | 性能 | コスト効率 | 速度 |
|---|---|---|---|---|---|
| 1 | Suno V5.5 Suno | 6.7 /10 | 7 | 7 | 6 |
| 2 | Mureka V8 Mureka | 6.5 /10 | 7 | 7 | 6 |
| 3 | Suno V5.5 Suno | 6.5 /10 | 7 | 7 | 6 |
| 4 | Suno V5 Suno | 6.4 /10 | 7 | 7 | 6 |
| 5 | Mureka V8 Mureka | 6.2 /10 | 6 | 7 | 6 |
| 6 | Lyria 3 Pro | 6.0 /10 | 6 | 6 | 6 |
| 7 | Suno V5 Suno | 5.7 /10 | 6 | 6 | 6 |
| 8 | Suno V4.5 Suno | 5.6 /10 | 6 | 6 | 6 |
| 9 | Music 2.6 MiniMax | 5.6 /10 | 6 | 6 | 6 |
| 10 | MiniMax Music 2.5+ MiniMax | 5.6 /10 | 6 | 6 | 6 |
Methodology
算出方法
- 基礎点: Artificial Analysis等の公開ベンチマーク(Intelligence Index、Elo、料金、速度)を0〜100に正規化した外部スコアです。
- Lab実測補正: Aincarn Labの公開済み検証ログ(5点満点×複数指標)の平均点と中立値3点の差に4を掛けた値(最大±8点)を、検証したカテゴリの軸にだけ加算します。誤った帰属を防ぐため、モデル名のファミリーとバージョンが一致した場合のみ補正します。
- 総合(Aincarn Index): ジャンル性能5軸の平均50% + コスト効率20% + 日本語10% + 速度10% + 長文脈10%の加重平均を10点満点で表示します。各軸は0〜100を10段階(1〜10)に丸めています。
- 現在の限界: Lab実測はテキスト系3カテゴリ(文章・コード・リサーチ) ×主要3ファミリーのみで、それ以外のモデル・軸は外部スコアのみです。実測対象は毎月拡大します。広告や報酬による順位操作はありません。
※ Aincarn IndexはAincarnの編集基準による独自評価で、モデルの優劣を保証するものではありません。 基礎データの出典は各モデルの公開ベンチマーク・公式料金情報です。
