Aincarn Index

AIモデル独自ランキング

公開ベンチマークの正規化スコアを基礎点に、Aincarn Labの実測評価で補正した独自インデックスです。9軸を10段階で評価し、外部データの丸写しではない判断材料を提供します。

データソース: 公開ベンチマーク・料金情報・公式情報ライブ取得更新: 2026年6月12日

LLM Ranking

テキスト・推論モデル総合

リサーチ・文章・コード・分析・エージェントの5軸に、日本語・速度・長文脈・コスト効率を加えた9軸の10段階評価です。「*」付きのスコアはAincarn Labの実測補正が入っています。

#	モデル	Index	リサーチ	文章	コード	分析	エージェント	日本語	速度	長文脈	コスト効率
1	Gemini 3.1 Pro Preview Google$4.50 / 1M tokensLab実測補正あり	9.0 /10	10	10	10	9	9	9	7	8	9
2	GPT-5.5 (xhigh) OpenAI$11.25 / 1M tokensLab実測補正あり	8.9 /10	10	10	10	10	10	9	3	8	9
3	Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) Anthropic$20.00 / 1M tokens	8.8 /10	10	10	10	10	10	9	4	8	9
4	GPT-5.4 (xhigh) OpenAI$5.63 / 1M tokens	8.8 /10	10	10	10	10	10	9	5	8	9
5	Claude Opus 4.8 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens	8.7 /10	10	10	10	10	10	9	3	8	9
6	GPT-5.5 (high) OpenAI$11.25 / 1M tokens	8.7 /10	10	10	10	10	10	9	3	8	9
7	Qwen3.7 Max Alibaba$3.75 / 1M tokens	8.7 /10	9	9	8	9	9	8	9	8	8
8	Gemini 3.5 Flash (high) Google$3.38 / 1M tokens	8.6 /10	9	9	8	8	9	9	10	8	8
9	Gemini 3.5 Flash (medium) Google$3.38 / 1M tokens	8.6 /10	9	9	7	8	8	9	10	8	8
10	GPT-5.4 mini (xhigh) OpenAI$1.69 / 1M tokens	8.5 /10	8	8	9	8	8	9	9	8	8
11	GPT-5.5 (medium) OpenAI$11.25 / 1M tokens	8.5 /10	10	10	9	10	10	9	3	8	8
12	Claude Opus 4.7 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens	8.3 /10	10	10	9	9	9	9	3	8	8
13	Gemini 3 Flash Preview (Reasoning) Google$1.13 / 1M tokens	8.3 /10	8	8	7	10	8	9	10	8	8
14	GPT-5.3 Codex (xhigh) OpenAI$4.81 / 1M tokens	8.3 /10	9	9	9	9	9	9	4	8	8
15	GPT-5.2 (xhigh) OpenAI$4.81 / 1M tokens	8.2 /10	9	9	8	10	8	9	4	8	8
16	Grok 4.3 (high) xAI$1.56 / 1M tokens	8.2 /10	9	9	7	8	8	8	9	8	8
17	GPT-5.1 (high) OpenAI$3.44 / 1M tokens	8.1 /10	8	8	8	10	8	9	6	8	8
18	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic$6.00 / 1M tokens	8.0 /10	9	9	9	9	9	9	4	8	8
19	GPT-5 Codex (high) OpenAI$3.44 / 1M tokens	8.0 /10	7	7	7	10	7	9	10	8	7
20	Grok 4.20 0309 v2 (Reasoning) xAI$3.00 / 1M tokens	8.0 /10	8	8	7	8	8	8	10	8	8
21	Grok 4.20 0309 (Reasoning) xAI$3.00 / 1M tokens	8.0 /10	8	8	7	8	8	8	10	8	8
22	Claude Opus 4.7 (Non-reasoning, High Effort) Anthropic$10.00 / 1M tokens	7.9 /10	9	9	9	9	9	9	2	8	8
23	Gemini 3.5 Flash (minimal) Google$3.38 / 1M tokens	7.9 /10	7	7	8	8	8	9	10	8	7
24	GPT-5.1 Codex (high) OpenAI$3.44 / 1M tokens	7.9 /10	7	7	6	10	7	9	10	8	7
25	GPT-5.5 (low) OpenAI$11.25 / 1M tokens	7.9 /10	9	9	9	9	9	9	3	8	8
26	Claude Opus 4.5 (Reasoning) Anthropic$10.00 / 1M tokens	7.9 /10	8	8	8	10	8	9	3	8	8
27	Qwen3.7 Plus Alibaba$0.59 / 1M tokens	7.9 /10	9	9	8	8	9	8	3	8	9
28	GPT-5.2 Codex (xhigh) OpenAI$4.81 / 1M tokens	7.9 /10	8	8	7	8	8	9	7	8	8
29	DeepSeek V4 Pro (Reasoning, Max Effort) DeepSeek$0.54 / 1M tokens	7.8 /10	9	9	8	8	8	8	4	8	8
30	Kimi K2.6 Kimi$1.71 / 1M tokens	7.8 /10	9	9	8	9	9	8	2	8	8
31	Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic$10.00 / 1M tokens	7.8 /10	9	9	8	8	9	9	3	8	8
32	MiniMax-M3 MiniMax$0.53 / 1M tokens	7.8 /10	9	9	7	8	8	8	3	8	8
33	MiMo-V2.5-Pro Xiaomi$0.54 / 1M tokens	7.8 /10	9	9	8	8	8	8	2	8	9
34	GPT-5.4 nano (xhigh) OpenAI$0.46 / 1M tokens	7.8 /10	7	7	7	7	7	9	8	8	8
35	Nemotron 3 Ultra 550B A55B (Reasoning) NVIDIA$1.18 / 1M tokens	7.7 /10	8	8	6	7	7	8	9	8	8
36	GLM-5.1 (Reasoning) Z AI$2.15 / 1M tokens	7.7 /10	9	9	7	8	8	8	4	8	8
37	GLM-5 (Reasoning) Z AI$1.55 / 1M tokens	7.6 /10	8	8	7	8	8	8	4	8	8
38	Muse Spark Meta$0.00 / 1M tokens	7.6 /10	9	9	8	8	8	8	1	8	9
39	MiMo-V2.5 Xiaomi$0.17 / 1M tokens	7.6 /10	8	8	7	8	8	8	5	8	8
40	GPT-5.4 (low) OpenAI$5.91 / 1M tokens	7.6 /10	8	8	8	8	8	9	4	8	8
41	Qwen3.6 Max Preview Alibaba$2.92 / 1M tokens	7.6 /10	9	9	8	8	8	8	2	8	8
42	GPT-5 (high) OpenAI$3.44 / 1M tokens	7.6 /10	7	7	6	10	7	9	6	8	7
43	DeepSeek V4 Pro (Reasoning, High Effort) DeepSeek$0.54 / 1M tokens	7.5 /10	8	8	7	8	8	8	4	8	8
44	Gemini 3 Pro Preview (high) Google$4.50 / 1M tokens	7.5 /10	8	8	8	10	8	9	1	8	8
45	KAT Coder Pro V2 KwaiKAT$0.53 / 1M tokens	7.5 /10	7	7	8	8	7	8	7	8	8
46	Grok 4.3 (medium) xAI$1.56 / 1M tokens	7.5 /10	8	8	6	7	7	8	8	8	7
47	Step 3.7 Flash StepFun$0.44 / 1M tokens	7.5 /10	7	7	6	7	7	8	10	8	7
48	GLM-4.7 (Reasoning) Z AI$1.00 / 1M tokens	7.5 /10	7	7	6	10	7	8	6	8	8
49	GPT-5 (medium) OpenAI$3.44 / 1M tokens	7.5 /10	7	7	7	10	7	9	5	8	7
50	Qwen3.6 Plus Alibaba$1.13 / 1M tokens	7.5 /10	8	8	7	8	8	8	3	8	8
51	DeepSeek V4 Flash (Reasoning, Max Effort) DeepSeek$0.17 / 1M tokens	7.4 /10	8	8	7	7	7	8	5	8	8
52	MiniMax-M2.7 MiniMax$0.53 / 1M tokens	7.4 /10	8	8	7	8	8	8	2	8	8
53	Claude Opus 4.6 (Non-reasoning, High Effort) Anthropic$10.00 / 1M tokens	7.4 /10	8	8	8	8	8	9	3	8	7
54	Claude Opus 4.5 (Non-reasoning) Anthropic$10.00 / 1M tokens	7.4 /10	7	7	7	10	7	9	3	8	7
55	GPT-5.2 (medium) OpenAI$4.81 / 1M tokens	7.4 /10	8	8	7	10	8	9	1	8	8
56	MiniMax-M2.5 MiniMax$0.53 / 1M tokens	7.3 /10	7	7	6	7	7	8	9	8	7
57	Claude 4.5 Sonnet (Reasoning) Anthropic$6.00 / 1M tokens	7.3 /10	7	7	6	10	7	9	3	8	7
58	Claude Sonnet 4.6 (Non-reasoning, High Effort) Anthropic$6.00 / 1M tokens	7.3 /10	7	7	8	8	8	9	3	8	7
59	MiMo-V2-Pro Xiaomi$1.50 / 1M tokens	7.2 /10	8	8	7	8	8	8	2	8	8
60	Qwen3.6 35B A3B (Reasoning) Alibaba$0.56 / 1M tokens	7.2 /10	7	7	6	7	7	8	8	8	7
61	MiMo-V2-Flash (Feb 2026) Xiaomi$0.15 / 1M tokens	7.2 /10	7	7	6	6	6	8	9	8	7
62	MiMo-V2-Omni-0327 Xiaomi$0.80 / 1M tokens	7.1 /10	8	8	6	7	7	8	4	8	8
63	Hy3-preview (Reasoning) Tencent$0.20 / 1M tokens	7.1 /10	7	7	6	7	7	8	6	8	7
64	Qwen3.5 122B A10B (Reasoning) Alibaba$1.10 / 1M tokens	7.1 /10	7	7	6	6	7	8	8	8	7
65	Kimi K2.5 (Reasoning) Kimi$1.19 / 1M tokens	7.0 /10	8	8	7	7	7	8	3	8	8
66	Qwen3.5 397B A17B (Reasoning) Alibaba$1.35 / 1M tokens	7.0 /10	8	8	7	7	7	8	3	8	7
67	Grok 4.3 (low) xAI$1.56 / 1M tokens	7.0 /10	7	7	5	6	7	8	7	8	7
68	Claude Sonnet 4.6 (Non-reasoning, Low Effort) Anthropic$6.00 / 1M tokens	7.0 /10	7	7	7	7	7	9	3	8	7
69	MiMo-V2-Omni Xiaomi$0.00 / 1M tokens	7.0 /10	7	7	6	7	7	8	5	8	8
70	Claude 4.1 Opus (Reasoning) Anthropic$30.00 / 1M tokens	7.0 /10	7	7	6	10	7	9	2	8	7
71	Qwen3.6 27B (Reasoning) Alibaba$1.35 / 1M tokens	6.9 /10	8	8	6	7	7	8	3	8	7
72	DeepSeek V4 Flash (Reasoning, High Effort) DeepSeek$0.17 / 1M tokens	6.8 /10	8	8	7	7	7	8	1	8	8
73	DeepSeek V3.2 (Reasoning) DeepSeek$0.34 / 1M tokens	6.9 /10	7	7	6	10	7	8	1	8	8
74	GLM-5.1 (Non-reasoning) Z AI$2.15 / 1M tokens	6.8 /10	7	7	6	7	7	8	4	8	7
75	Qwen3.5 27B (Reasoning) Alibaba$0.82 / 1M tokens	6.8 /10	7	7	6	6	7	8	5	8	7
76	Grok 4 xAI$11.00 / 1M tokens	6.8 /10	7	7	7	10	7	8	1	8	7
77	GLM-5-Turbo Z AI$0.00 / 1M tokens	6.8 /10	8	8	6	7	7	8	1	8	8
78	GPT-5.5 Instant (May 2026) OpenAI$11.25 / 1M tokens	6.7 /10	7	7	8	7	7	9	1	8	7
79	Kimi K2.6 (Non-reasoning) Kimi$1.71 / 1M tokens	6.7 /10	7	7	6	7	7	8	2	8	7
80	GLM 5V Turbo (Reasoning) Z AI$0.00 / 1M tokens	6.5 /10	7	7	6	7	7	8	1	8	8

Lab adjustments

実測補正の内訳

Gemini 3.1 Pro Preview の文章軸 +4.8点

2026年6月10日のLab実測「ChatGPT PlusとAPI利用の記事構成を最新モデルで比較」で Gemini3.1 Pro拡張が平均4.2点（5点満点）→ 検証ログを見る

Gemini 3.1 Pro Preview のコード軸 +3.2点

2026年6月10日のLab実測「TODOアプリの完成物でコード生成力を比較」で Gemini3.1 Pro(High) が平均3.8点（5点満点）→ 検証ログを見る

Gemini 3.1 Pro Preview のリサーチ軸 +4点

2026年6月10日のLab実測「AIサブスク選びの判断軸を比較」で Gemini3.1 Pro拡張 DeepResearch が平均4点（5点満点）→ 検証ログを見る

GPT-5.5 (xhigh) の文章軸 +7.2点

2026年6月10日のLab実測「ChatGPT PlusとAPI利用の記事構成を最新モデルで比較」で GPT5.5 Thinking拡張が平均4.8点（5点満点）→ 検証ログを見る

GPT-5.5 (xhigh) のコード軸 +5.6点

2026年6月10日のLab実測「TODOアプリの完成物でコード生成力を比較」で GPT5.5 非常に高いが平均4.4点（5点満点）→ 検証ログを見る

GPT-5.5 (xhigh) のリサーチ軸 +5.6点

2026年6月10日のLab実測「AIサブスク選びの判断軸を比較」で GPT5.5 Thinking拡張 DeepResearch が平均4.4点（5点満点）→ 検証ログを見る

Image Ranking

画像生成モデル

#	モデル	Index	性能	コスト効率	速度
1	GPT Image 2 (high) OpenAI	9.0 /10	10	9	6
2	Riverflow 2.0 Sourceful	8.3 /10	9	8	6
3	GPT Image 1.5 (high) OpenAI	8.0 /10	9	8	6
4	HiDream-O1-Image-1.5 HiDream	8.0 /10	9	8	6
5	GPT Image 1.5 (high) OpenAI	8.0 /10	9	8	6
6	Nano Banana 2 (Gemini 3.1 Flash Image Preview) Google	8.0 /10	9	8	6
7	GPT Image 2 (high) OpenAI	8.0 /10	9	8	6
8	Riverflow 2.0 Sourceful	7.9 /10	8	8	6
9	Nano Banana Pro (Gemini 3 Pro Image) Google	7.9 /10	8	8	6
10	Nano Banana 2 (Gemini 3.1 Flash Image Preview) Google	7.8 /10	8	8	6

Video Ranking

動画生成モデル

#	モデル	Index	性能	コスト効率	速度
1	Dreamina Seedance 2.0 720p ByteDance Seed	8.5 /10	9	9	6
2	grok-imagine-video xAI	8.3 /10	9	8	6
3	grok-imagine-video-1.5-preview xAI	8.3 /10	9	8	6
4	PixVerse V6 PixVerse	8.3 /10	9	8	6
5	GenFlare 2.0 Baidu	8.1 /10	9	8	6
6	HappyHorse-1.0 Alibaba-ATH	8.0 /10	9	8	6
7	HappyHorse-1.0 Alibaba-ATH	8.0 /10	9	8	6
8	Kling 2.5 Turbo 1080p KlingAI	7.9 /10	8	8	6
9	Kling 3.0 1080p (Pro) KlingAI	7.9 /10	8	8	6
10	Vidu Q3 Pro Vidu	7.9 /10	8	8	6

Audio Ranking

音声合成モデル

#	モデル	Index	性能	コスト効率	速度
1	Fun-Realtime-TTS Alibaba	7.2 /10	8	7	6
2	Gemini 3.1 Flash TTS Google	7.1 /10	7	7	6
3	Realtime TTS-2 - Research Preview Inworld	7.0 /10	7	7	6
4	Sonic 3.5 Cartesia	6.9 /10	7	7	6
5	xAI Text to Speech xAI	6.9 /10	7	7	6
6	Realtime TTS 1.5 Max Inworld	6.9 /10	7	7	6
7	Async Flash v1.5 async	6.7 /10	7	7	6
8	StepAudio 2.5 TTS StepFun	6.6 /10	7	7	6
9	Eleven v3 ElevenLabs	6.6 /10	7	7	6
10	Speech 2.8 HD MiniMax	6.5 /10	7	7	6

Music Ranking

音楽生成モデル

#	モデル	Index	性能	コスト効率	速度
1	Suno V5.5 Suno	6.7 /10	7	7	6
2	Mureka V8 Mureka	6.5 /10	7	7	6
3	Suno V5.5 Suno	6.5 /10	7	7	6
4	Suno V5 Suno	6.4 /10	7	7	6
5	Mureka V8 Mureka	6.2 /10	6	7	6
6	Lyria 3 Pro Google	6.0 /10	6	6	6
7	Suno V5 Suno	5.7 /10	6	6	6
8	Suno V4.5 Suno	5.6 /10	6	6	6
9	Music 2.6 MiniMax	5.6 /10	6	6	6
10	MiniMax Music 2.5+ MiniMax	5.6 /10	6	6	6

Methodology

算出方法

基礎点: Artificial Analysis等の公開ベンチマーク（Intelligence Index、Elo、料金、速度）を0〜100に正規化した外部スコアです。
Lab実測補正: Aincarn Labの公開済み検証ログ（5点満点×複数指標）の平均点と中立値3点の差に4を掛けた値（最大±8点）を、検証したカテゴリの軸にだけ加算します。誤った帰属を防ぐため、モデル名のファミリーとバージョンが一致した場合のみ補正します。
総合（Aincarn Index）: ジャンル性能5軸の平均50% + コスト効率20% + 日本語10% + 速度10% + 長文脈10%の加重平均を10点満点で表示します。各軸は0〜100を10段階（1〜10）に丸めています。
現在の限界: Lab実測はテキスト系3カテゴリ（文章・コード・リサーチ） ×主要3ファミリーのみで、それ以外のモデル・軸は外部スコアのみです。実測対象は毎月拡大します。広告や報酬による順位操作はありません。

Aincarn Labの検証ログを見る用途別のモデル比較ツール

※ Aincarn IndexはAincarnの編集基準による独自評価で、モデルの優劣を保証するものではありません。基礎データの出典は各モデルの公開ベンチマーク・公式料金情報です。