絶対評価ではない
サンプル数は限られ、定性的な判断を含みます。順位は「その条件での傾向」であり、唯一の正解ではありません。
Methodology
Aincarn Lab は、最新AIに同じ条件でタスクを実行させ、出力を一定の評価軸で記録する独立系の比較ログです。広告やスポンサーの有無が評価結果に影響しないことを原則とし、 検証の手順・データの種類・限界をすべて公開します。
Independence
Process
用途を固定する
文章作成・コード生成・調査/要約など、評価する用途を1つに固定します。
同一プロンプトを渡す
全モデルにまったく同じプロンプトを渡し、出題側の恣意を排除します。
最新モデルで実行する
その時点で利用できる最新モデル・設定で実行します。
固定の評価軸で採点する
あらかじめ決めた評価軸(下記)で各モデルを採点します。
実行日・条件を記録する
比較日・使用モデル・プロンプトを残し、再現できる形で保存します。
Evaluation Axes
用途ごとに、あらかじめ決めた評価軸で採点します。
Data Sources
Aincarn Lab(自社実測)
このページと各比較ログは、Aincarn 自身が同一プロンプトで実行し採点したオリジナルの記録です。
AIモデル比較ツール(第三者データ)
「AIモデル比較」ツールの性能スコアは、Artificial Analysis などの公開ベンチマークを出典として表示しています。Aincarn Lab の実測とは区別しています。
Limitations
サンプル数は限られ、定性的な判断を含みます。順位は「その条件での傾向」であり、唯一の正解ではありません。
モデルは頻繁に更新されます。結果は実施時点のもので、変わります。だからこそ毎月追記して蓄積します。
用途・プロンプト・好みによって最適は変化します。最終判断は各自の用途で確認してください。
出力の全文転載は最小限にとどめ、傾向と要点の記録に絞ります。
検証結果は毎月追記し、同じページに蓄積していきます。
比較ログを見る →