本文へスキップ
Aincarn

Aincarn Index

AIモデル独自ランキング

公開ベンチマークの正規化スコアを基礎点に、Aincarn Labの実測評価で補正した独自インデックスです。9軸を10段階で評価し、外部データの丸写しではない判断材料を提供します。

データソース: 公開ベンチマーク・料金情報・公式情報ライブ取得更新: 2026年6月12日

LLM Ranking

テキスト・推論モデル総合

リサーチ・文章・コード・分析・エージェントの5軸に、日本語・速度・長文脈・コスト効率を加えた9軸の10段階評価です。 「*」付きのスコアはAincarn Labの実測補正が入っています。

#モデルIndexリサーチ文章コード分析エージェント日本語速度長文脈コスト効率
1

Gemini 3.1 Pro Preview

Google$4.50 / 1M tokensLab実測補正あり

9.0 /10101010999789
2

GPT-5.5 (xhigh)

OpenAI$11.25 / 1M tokensLab実測補正あり

8.9 /1010101010109389
3

Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)

Anthropic$20.00 / 1M tokens

8.8 /1010101010109489
4

GPT-5.4 (xhigh)

OpenAI$5.63 / 1M tokens

8.8 /1010101010109589
5

Claude Opus 4.8 (Adaptive Reasoning, Max Effort)

Anthropic$10.00 / 1M tokens

8.7 /1010101010109389
6

GPT-5.5 (high)

OpenAI$11.25 / 1M tokens

8.7 /1010101010109389
7

Qwen3.7 Max

Alibaba$3.75 / 1M tokens

8.7 /10998998988
8

Gemini 3.5 Flash (high)

Google$3.38 / 1M tokens

8.6 /109988991088
9

Gemini 3.5 Flash (medium)

Google$3.38 / 1M tokens

8.6 /109978891088
10

GPT-5.4 mini (xhigh)

OpenAI$1.69 / 1M tokens

8.5 /10889889988
11

GPT-5.5 (medium)

OpenAI$11.25 / 1M tokens

8.5 /101010910109388
12

Claude Opus 4.7 (Adaptive Reasoning, Max Effort)

Anthropic$10.00 / 1M tokens

8.3 /1010109999388
13

Gemini 3 Flash Preview (Reasoning)

Google$1.13 / 1M tokens

8.3 /1088710891088
14

GPT-5.3 Codex (xhigh)

OpenAI$4.81 / 1M tokens

8.3 /10999999488
15

GPT-5.2 (xhigh)

OpenAI$4.81 / 1M tokens

8.2 /109981089488
16

Grok 4.3 (high)

xAI$1.56 / 1M tokens

8.2 /10997888988
17

GPT-5.1 (high)

OpenAI$3.44 / 1M tokens

8.1 /108881089688
18

Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)

Anthropic$6.00 / 1M tokens

8.0 /10999999488
19

GPT-5 Codex (high)

OpenAI$3.44 / 1M tokens

8.0 /1077710791087
20

Grok 4.20 0309 v2 (Reasoning)

xAI$3.00 / 1M tokens

8.0 /108878881088
21

Grok 4.20 0309 (Reasoning)

xAI$3.00 / 1M tokens

8.0 /108878881088
22

Claude Opus 4.7 (Non-reasoning, High Effort)

Anthropic$10.00 / 1M tokens

7.9 /10999999288
23

Gemini 3.5 Flash (minimal)

Google$3.38 / 1M tokens

7.9 /107788891087
24

GPT-5.1 Codex (high)

OpenAI$3.44 / 1M tokens

7.9 /1077610791087
25

GPT-5.5 (low)

OpenAI$11.25 / 1M tokens

7.9 /10999999388
26

Claude Opus 4.5 (Reasoning)

Anthropic$10.00 / 1M tokens

7.9 /108881089388
27

Qwen3.7 Plus

Alibaba$0.59 / 1M tokens

7.9 /10998898389
28

GPT-5.2 Codex (xhigh)

OpenAI$4.81 / 1M tokens

7.9 /10887889788
29

DeepSeek V4 Pro (Reasoning, Max Effort)

DeepSeek$0.54 / 1M tokens

7.8 /10998888488
30

Kimi K2.6

Kimi$1.71 / 1M tokens

7.8 /10998998288
31

Claude Opus 4.6 (Adaptive Reasoning, Max Effort)

Anthropic$10.00 / 1M tokens

7.8 /10998899388
32

MiniMax-M3

MiniMax$0.53 / 1M tokens

7.8 /10997888388
33

MiMo-V2.5-Pro

Xiaomi$0.54 / 1M tokens

7.8 /10998888289
34

GPT-5.4 nano (xhigh)

OpenAI$0.46 / 1M tokens

7.8 /10777779888
35

Nemotron 3 Ultra 550B A55B (Reasoning)

NVIDIA$1.18 / 1M tokens

7.7 /10886778988
36

GLM-5.1 (Reasoning)

Z AI$2.15 / 1M tokens

7.7 /10997888488
37

GLM-5 (Reasoning)

Z AI$1.55 / 1M tokens

7.6 /10887888488
38

Muse Spark

Meta$0.00 / 1M tokens

7.6 /10998888189
39

MiMo-V2.5

Xiaomi$0.17 / 1M tokens

7.6 /10887888588
40

GPT-5.4 (low)

OpenAI$5.91 / 1M tokens

7.6 /10888889488
41

Qwen3.6 Max Preview

Alibaba$2.92 / 1M tokens

7.6 /10998888288
42

GPT-5 (high)

OpenAI$3.44 / 1M tokens

7.6 /107761079687
43

DeepSeek V4 Pro (Reasoning, High Effort)

DeepSeek$0.54 / 1M tokens

7.5 /10887888488
44

Gemini 3 Pro Preview (high)

Google$4.50 / 1M tokens

7.5 /108881089188
45

KAT Coder Pro V2

KwaiKAT$0.53 / 1M tokens

7.5 /10778878788
46

Grok 4.3 (medium)

xAI$1.56 / 1M tokens

7.5 /10886778887
47

Step 3.7 Flash

StepFun$0.44 / 1M tokens

7.5 /107767781087
48

GLM-4.7 (Reasoning)

Z AI$1.00 / 1M tokens

7.5 /107761078688
49

GPT-5 (medium)

OpenAI$3.44 / 1M tokens

7.5 /107771079587
50

Qwen3.6 Plus

Alibaba$1.13 / 1M tokens

7.5 /10887888388
51

DeepSeek V4 Flash (Reasoning, Max Effort)

DeepSeek$0.17 / 1M tokens

7.4 /10887778588
52

MiniMax-M2.7

MiniMax$0.53 / 1M tokens

7.4 /10887888288
53

Claude Opus 4.6 (Non-reasoning, High Effort)

Anthropic$10.00 / 1M tokens

7.4 /10888889387
54

Claude Opus 4.5 (Non-reasoning)

Anthropic$10.00 / 1M tokens

7.4 /107771079387
55

GPT-5.2 (medium)

OpenAI$4.81 / 1M tokens

7.4 /108871089188
56

MiniMax-M2.5

MiniMax$0.53 / 1M tokens

7.3 /10776778987
57

Claude 4.5 Sonnet (Reasoning)

Anthropic$6.00 / 1M tokens

7.3 /107761079387
58

Claude Sonnet 4.6 (Non-reasoning, High Effort)

Anthropic$6.00 / 1M tokens

7.3 /10778889387
59

MiMo-V2-Pro

Xiaomi$1.50 / 1M tokens

7.2 /10887888288
60

Qwen3.6 35B A3B (Reasoning)

Alibaba$0.56 / 1M tokens

7.2 /10776778887
61

MiMo-V2-Flash (Feb 2026)

Xiaomi$0.15 / 1M tokens

7.2 /10776668987
62

MiMo-V2-Omni-0327

Xiaomi$0.80 / 1M tokens

7.1 /10886778488
63

Hy3-preview (Reasoning)

Tencent$0.20 / 1M tokens

7.1 /10776778687
64

Qwen3.5 122B A10B (Reasoning)

Alibaba$1.10 / 1M tokens

7.1 /10776678887
65

Kimi K2.5 (Reasoning)

Kimi$1.19 / 1M tokens

7.0 /10887778388
66

Qwen3.5 397B A17B (Reasoning)

Alibaba$1.35 / 1M tokens

7.0 /10887778387
67

Grok 4.3 (low)

xAI$1.56 / 1M tokens

7.0 /10775678787
68

Claude Sonnet 4.6 (Non-reasoning, Low Effort)

Anthropic$6.00 / 1M tokens

7.0 /10777779387
69

MiMo-V2-Omni

Xiaomi$0.00 / 1M tokens

7.0 /10776778588
70

Claude 4.1 Opus (Reasoning)

Anthropic$30.00 / 1M tokens

7.0 /107761079287
71

Qwen3.6 27B (Reasoning)

Alibaba$1.35 / 1M tokens

6.9 /10886778387
72

DeepSeek V4 Flash (Reasoning, High Effort)

DeepSeek$0.17 / 1M tokens

6.8 /10887778188
73

DeepSeek V3.2 (Reasoning)

DeepSeek$0.34 / 1M tokens

6.9 /107761078188
74

GLM-5.1 (Non-reasoning)

Z AI$2.15 / 1M tokens

6.8 /10776778487
75

Qwen3.5 27B (Reasoning)

Alibaba$0.82 / 1M tokens

6.8 /10776678587
76

Grok 4

xAI$11.00 / 1M tokens

6.8 /107771078187
77

GLM-5-Turbo

Z AI$0.00 / 1M tokens

6.8 /10886778188
78

GPT-5.5 Instant (May 2026)

OpenAI$11.25 / 1M tokens

6.7 /10778779187
79

Kimi K2.6 (Non-reasoning)

Kimi$1.71 / 1M tokens

6.7 /10776778287
80

GLM 5V Turbo (Reasoning)

Z AI$0.00 / 1M tokens

6.5 /10776778188

Lab adjustments

実測補正の内訳

Image Ranking

画像生成モデル

#モデルIndex性能コスト効率速度
1

GPT Image 2 (high)

OpenAI

9.0 /101096
2

Riverflow 2.0

Sourceful

8.3 /10986
3

GPT Image 1.5 (high)

OpenAI

8.0 /10986
4

HiDream-O1-Image-1.5

HiDream

8.0 /10986
5

GPT Image 1.5 (high)

OpenAI

8.0 /10986
6

Nano Banana 2 (Gemini 3.1 Flash Image Preview)

Google

8.0 /10986
7

GPT Image 2 (high)

OpenAI

8.0 /10986
8

Riverflow 2.0

Sourceful

7.9 /10886
9

Nano Banana Pro (Gemini 3 Pro Image)

Google

7.9 /10886
10

Nano Banana 2 (Gemini 3.1 Flash Image Preview)

Google

7.8 /10886

Video Ranking

動画生成モデル

#モデルIndex性能コスト効率速度
1

Dreamina Seedance 2.0 720p

ByteDance Seed

8.5 /10996
2

grok-imagine-video

xAI

8.3 /10986
3

grok-imagine-video-1.5-preview

xAI

8.3 /10986
4

PixVerse V6

PixVerse

8.3 /10986
5

GenFlare 2.0

Baidu

8.1 /10986
6

HappyHorse-1.0

Alibaba-ATH

8.0 /10986
7

HappyHorse-1.0

Alibaba-ATH

8.0 /10986
8

Kling 2.5 Turbo 1080p

KlingAI

7.9 /10886
9

Kling 3.0 1080p (Pro)

KlingAI

7.9 /10886
10

Vidu Q3 Pro

Vidu

7.9 /10886

Audio Ranking

音声合成モデル

#モデルIndex性能コスト効率速度
1

Fun-Realtime-TTS

Alibaba

7.2 /10876
2

Gemini 3.1 Flash TTS

Google

7.1 /10776
3

Realtime TTS-2 - Research Preview

Inworld

7.0 /10776
4

Sonic 3.5

Cartesia

6.9 /10776
5

xAI Text to Speech

xAI

6.9 /10776
6

Realtime TTS 1.5 Max

Inworld

6.9 /10776
7

Async Flash v1.5

async

6.7 /10776
8

StepAudio 2.5 TTS

StepFun

6.6 /10776
9

Eleven v3

ElevenLabs

6.6 /10776
10

Speech 2.8 HD

MiniMax

6.5 /10776

Music Ranking

音楽生成モデル

#モデルIndex性能コスト効率速度
1

Suno V5.5

Suno

6.7 /10776
2

Mureka V8

Mureka

6.5 /10776
3

Suno V5.5

Suno

6.5 /10776
4

Suno V5

Suno

6.4 /10776
5

Mureka V8

Mureka

6.2 /10676
6

Lyria 3 Pro

Google

6.0 /10666
7

Suno V5

Suno

5.7 /10666
8

Suno V4.5

Suno

5.6 /10666
9

Music 2.6

MiniMax

5.6 /10666
10

MiniMax Music 2.5+

MiniMax

5.6 /10666

Methodology

算出方法

  • 基礎点: Artificial Analysis等の公開ベンチマーク(Intelligence Index、Elo、料金、速度)を0〜100に正規化した外部スコアです。
  • Lab実測補正: Aincarn Labの公開済み検証ログ(5点満点×複数指標)の平均点と中立値3点の差に4を掛けた値(最大±8点)を、検証したカテゴリの軸にだけ加算します。誤った帰属を防ぐため、モデル名のファミリーとバージョンが一致した場合のみ補正します。
  • 総合(Aincarn Index): ジャンル性能5軸の平均50% + コスト効率20% + 日本語10% + 速度10% + 長文脈10%の加重平均を10点満点で表示します。各軸は0〜100を10段階(1〜10)に丸めています。
  • 現在の限界: Lab実測はテキスト系3カテゴリ(文章・コード・リサーチ) ×主要3ファミリーのみで、それ以外のモデル・軸は外部スコアのみです。実測対象は毎月拡大します。広告や報酬による順位操作はありません。

※ Aincarn IndexはAincarnの編集基準による独自評価で、モデルの優劣を保証するものではありません。 基礎データの出典は各モデルの公開ベンチマーク・公式料金情報です。