本文へスキップ
Aincarn
← Aincarn Lab

Methodology

Aincarn Lab の比較方法

Aincarn Lab は、最新AIに同じ条件でタスクを実行させ、出力を一定の評価軸で記録する独立系の比較ログです。広告やスポンサーの有無が評価結果に影響しないことを原則とし、 検証の手順・データの種類・限界をすべて公開します。

Independence

独立性について

  • ・評価は、Aincarn が実際に各AIを動かして記録したものです。
  • ・特定ベンダーからの依頼や報酬によって順位を変えることはありません。
  • ・スポンサー枠や提携を設ける場合も「PR」と明示し、比較ログの順位とは明確に分離します。

Process

比較の手順

  1. 1

    用途を固定する

    文章作成・コード生成・調査/要約など、評価する用途を1つに固定します。

  2. 2

    同一プロンプトを渡す

    全モデルにまったく同じプロンプトを渡し、出題側の恣意を排除します。

  3. 3

    最新モデルで実行する

    その時点で利用できる最新モデル・設定で実行します。

  4. 4

    固定の評価軸で採点する

    あらかじめ決めた評価軸(下記)で各モデルを採点します。

  5. 5

    実行日・条件を記録する

    比較日・使用モデル・プロンプトを残し、再現できる形で保存します。

Evaluation Axes

用途別の評価軸

用途ごとに、あらかじめ決めた評価軸で採点します。

文章作成AI比較ログ

構成の明確さ日本語の自然さ初心者への説明力注意点の拾い方記事化しやすさ

コード生成AI比較ログ

完成物の動作UIの使いやすさコード品質要件の満たし方修正しやすさ

調査・要約AI比較ログ

論点の網羅性根拠の扱い不確実性の明示要約の読みやすさ次に取る行動の明確さ

Data Sources

データの種類(重要)

Aincarn Lab(自社実測)

このページと各比較ログは、Aincarn 自身が同一プロンプトで実行し採点したオリジナルの記録です。

AIモデル比較ツール(第三者データ)

「AIモデル比較」ツールの性能スコアは、Artificial Analysis などの公開ベンチマークを出典として表示しています。Aincarn Lab の実測とは区別しています。

Limitations

限界と注意

絶対評価ではない

サンプル数は限られ、定性的な判断を含みます。順位は「その条件での傾向」であり、唯一の正解ではありません。

その時点のスナップショット

モデルは頻繁に更新されます。結果は実施時点のもので、変わります。だからこそ毎月追記して蓄積します。

実利用では体感が変わる

用途・プロンプト・好みによって最適は変化します。最終判断は各自の用途で確認してください。

全文転載はしない

出力の全文転載は最小限にとどめ、傾向と要点の記録に絞ります。

検証結果は毎月追記し、同じページに蓄積していきます。

比較ログを見る →