トークンとは何ですか?
トークンはAIモデルが処理するテキストの最小単位であり、約3〜4文字または英単語の3/4です。 英語では、「ChatGPT」は2トークンとカウントされ、「Hello, how are you?」は約5〜6トークンです。他の言語はあまり効率的にトークン化されません。ドイツ語や日本語の同じフレーズは20〜40%多くのトークンを消費する可能性があります。プロンプト(入力)のすべてのトークンと、モデルが出力するすべてのトークンについて課金されます。トークンを理解することは、プロンプトエンジニアリングとは何かの基礎です。これは、信頼できる出力を得るために入力を構造化する実践です。
モデルは単語や文字で「考える」のではありません。内部的には、テキストをトークンIDに変換し、数値的に処理します。これはトークン化が重要な理由です。1つの文字変更は時々トークン境界に影響を与える可能性があり、冗長な単語を含む整理の悪いプロンプトは出力品質を改善することなく数百のトークンを無駄にする可能性があります。
一文で:トークンはAIモデルが処理するテキストの最小単位であり、約3〜4文字または英単語の3/4であり、すべての入力トークンと出力トークンについて課金されます。
重要なポイント
- トークンはAIのコストと処理の単位です。英語では約3〜4文字=1トークン。他の言語ではより多くのトークンが必要です。
- 入出力トークンと出力トークンに対して個別に支払います。出力トークンは通常2〜5倍以上の費用がかかります。長い冗長な出力がコストが急増する場所です。
- トークン計算には、システムプロンプト、完全な会話履歴、添付ファイル、および画像が含まれます。最後のメッセージだけではありません。
- レート制限(1分あたりのリクエスト数、1分あたりのトークン数)は、不正使用を防ぎ、リソースの公正な配分を保証するために存在します。無料層には厳しい制限があります。有料層ははるかに高いです。
- タスクに適切なモデルを使用すると、コストが10〜50倍削減されます。GPT-4o miniまたはClaude Haiku 4.5は、GPT-4oまたはClaude 4.6 Sonnetを必要としないタスクを処理できます。
- OllamaまたはLM Studioを経由したローカルLLMは、トークンあたりのAPI費用がゼロですが、VRAM投資が必要であり、フロンティアモデルよりも機能が低いです。
実際のトークン計数のしくみ
APIコールのすべての要素—システムプロンプト、会話履歴、新しいメッセージ、ファイル、およびモデル自体の出力—クォータからトークンを消費します。 これが、小さなメッセージで始まった会話が5回のやり取り後に突然高額になる理由です。すべてについて支払っています。システムプロンプトとユーザープロンプトの区別を理解することは重要です。両方が各呼び出しで課金されるためです。
- システムプロンプト: メッセージごとに1回カウントされます。200単語のシステムプロンプト=毎回のAPI呼び出しで約250トークン。
- 完全な会話履歴: 明示的に要約または削除されない限り、すべてのリクエストに含まれます。ターン2ごとに500トークンを持つ10ターンの会話=ターン11で再度カウントされた5,000トークン。
- 入力メッセージ: そのままカウントされます。
- 添付ファイルまたは画像: 画像はサイズと解像度に応じて100〜2,000トークンを消費します。大きなPDFは数千を消費できます。
- モデル出力: 生成された応答は出力トークンレート(通常は入力レートより2〜5倍高い)で完全にカウントされます。
- 実例: 3ターンのリサーチ会話:システムプロンプト(300トークン)+ユーザーQ1(150トークン)+モデルA1(200トークン)+ユーザーQ2(200トークン)+モデルA2(300トークン)+ユーザーQ3(100トークン)=ここまでで1,250トークン。Q3を送信すると、履歴全体(1,250トークン)を再度支払います。短いフォローアップ1つで、以前の会話全体と同じくらいの費用がかかる可能性があります。
2026年にGPT-4o、Claude、Geminiはメートルトンあたりいくらですか?
モデルの機能に応じて価格は大きく異なります。以下のすべての数値は、2026年3月現在の公式価格です。出力トークンは通常、入力トークンより2〜5倍コストがかかることに注意してください。これはコストが最も速く蓄積される場所です。正しいモデルの選択が最大のコストレバーです。詳細な比較については、GPT-4o、Claude、Gemini間の選択方法を参照してください。
2026年3月現在の価格。現在のレートを確認してください:OpenAI価格·Anthropic価格·Google価格
| モデル | 入力(1Mトークンあたり) | 出力(1Mトークンあたり) |
|---|---|---|
| OpenAI GPT-4o | $5.00 | $15.00 |
| Anthropic Claude 4.6 Sonnet | $3.00 | $15.00 |
| Google Gemini 1.5 Pro | $3.50 | $10.50 |
| OpenAI GPT-4o mini | $0.15 | $0.60 |
| Anthropic Claude 4.5 Haiku | $0.25 | $1.25 |
| Google Gemini 1.5 Flash | $0.075 | $0.30 |
レート制限とは何ですか—そしてなぜ存在するのですか?
レート制限は、1分あたりに実行できるリクエストの数(RPM)、1分あたりに処理できるトークン数(TPM)、または1日あたりのトークン数(TPD)のキャップです。 プロバイダーは制限を課して、不正使用を防ぎ、ユーザー間のリソースの公正な配分を保証し、価格層を作成します。無料層ユーザーは最も厳しい制限に直面しています。有料層ははるかに高いスループットのロックを解除します。
- 1分あたりのリクエスト(RPM): 60秒のウィンドウで実行できるAPI呼び出しの数。これを超過するとリクエストはキューに入れられるか拒否されます。
- 1分あたりのトークン数(TPM): トークンの総スループット。単一の大きなプロンプトは、数秒でTPMクォータ全体を消費できます。
- 制限に到達する一般的なシナリオ: 高速連続呼び出し(秒あたり50以上)を行う自動パイプライン、大規模なバッチ処理ジョブ、またはバースト状況での無料層ユーザー。
- 典型的な制限: 無料:3〜15 RPM、40k〜100k TPM。有料層1:500 RPM、200k〜500k TPM。エンタープライズ:3,000+ RPM、数百万TPM。
- 回避策: 小さなタスクをより大きなリクエストにバッチ処理(API呼び出しが少ない)、リクエスト間に遅延を追加、またはより高い層のアカウントにアップグレードします。
LLM APIコストを30〜50倍削減するにはどうすればいいですか?
PromptQuorumでテスト—システムプロンプトの詳細度のレベルが異なるGPT-4o、Claude 4.6 Sonnet、およびGemini 1.5 Pro上で実行される20個の同一のリサーチサマリプロンプト: 500トークンのシステムプロンプトで、平均出力は450トークンで、呼び出しあたりの平均コストは$0.032でした。200トークンのシステムプロンプトで同じ指示がある場合、平均出力は460トークン(呼び出しあたり$0.025)でした。同じ出力品質で18%のコスト削減。これは速度のためのプロンプト方法と一致しています。効率性はレイテンシとコストの両方を削減します。
プロンプトの不要なトークンはお金を無駄にします。コストは、会話内のすべてのAPI呼び出しにプロンプト全体が再度含まれるため、より速く蓄積されます。 500トークンのシステムプロンプトを300トークンにトリミングすると、呼び出しあたり$0.001が節約されます。1日1,000呼び出しでは、1日$1または年$365です。
- コンテキストを積極的にトリミング: モデルが既に知っていることを繰り返さないでください。「ユーザーはXを尋ねました。彼に私はYを言いました。今、彼はZを尋ねています」の代わりに、Zだけを含めてください。
- 明示的な長さの制約を使用します: 「3つの箇条書きで回答」または「最大100語」は簡潔さを強制し、冗長な出力(より多くのコストがかかる)を防止します。
- システムプロンプトのパディングを避ける: すべてのフィラー単語はお金がかかります。「ユーザーを支援する専門家アシスタント」は10トークン。「専門家アシスタント」は6トークン。両方同じ意味を伝えます。
- 例:ふくよかvs。トリミングされたシステムプロンプト:
- 悪いプロンプト「多くの領域で広範な知識を持つ有用なAIアシスタント。ユーザーに詳細で包括的な回答を提供することでユーザーを支援します。徹底的になり、推論をステップバイステップで説明します。簡潔であることを避けてください。ユーザーは徹底的な説明を高く評価します。」
- 良いプロンプト「あなたは専門家アシスタントです。正確で詳細な回答を提供します。あなたの推論を説明します。」
- トークン差:悪い=55トークン、良い=13トークン。1日100呼び出し:42×100×30日×($0.005/1M入力トークン)≈トリミングされたプロンプト1つで$0.63/月節約。
LLM APIコストを5つのステップで削減する方法
- 1タスクの複雑さにモデルを一致させる:単純な分類とQ&Aにはフロンティアモデルより33倍安いGPT-4o miniまたはClaude 4.5 Haikuを使用します
- 2会話履歴を5ターンごとにまとめる:履歴全体が各呼び出しで再度課金されるのを防ぎます(チェーンオブソートプロンプティングに対応する手法—事前に推論を構造化します)
- 3出力の長さを明示的に制限:「3つの箇条書きで回答」または「100語以下」は冗長でトークンが多い応答を防止します
- 4システムプロンプトをエッセンシャルにトリミング:フィラーフレーズを削除します。各冗長な単語はすべてのAPI呼び出しで再度課金されます
- 5Ollamaを経由したローカルLLMを大量の非公開ワークフローでテスト:フロンティアモデルの機能の代償としてトークンあたりのコストがゼロ
適切なタスクのための適切なモデルの選択
すべてのタスクがOpenAI GPT-4oまたはAnthropicクロードOpusを必要とするわけではありません。 単純な分類、事実的なQ&A、および多くの自動タスクは安いモデルで完璧に実行されます。コストの違いは劇的です。
| タスクタイプ | 推奨モデル | コスト対GPT-4o |
|---|---|---|
| 単純な分類/はい-いいえ | GPT-4o mini、Claude Haiku 4.5、またはGemini Flash | 33倍安い |
| 短い事実のQ&A | GPT-4o miniまたはClaude Haiku 4.5 | 10〜33倍安い |
| 複雑な分析またはコード | GPT-4oまたはClaude 4.6 Sonnet | ベースライン |
| 長編の創造的なライティング | Claude 4.6 SonnetまたはGPT-4o | ベースライン |
| 大量の非公開ワークフロー | Ollamaからのローカルモデル | ゼロAPIコスト |
ローカルLLM(Ollama)とクラウドAPI間のトレードオフは何ですか?
OllamaまたはLM Studioを経由したローカルモデルはトークンあたりのAPIコストがゼロです。ハードウェア(VRAMと電気代)に対してのみ支払います。 これにより、大量のワークフロー、プライバシーに敏感なアプリケーション、およびコスト関連のパイプラインに理想的です。トレードオフは機能(ローカルモデルはフロンティアモデルより遅れている)とレイテンシ(コンシューマーVRAM上の実行は遅い)です。コンテキストウィンドウを理解することは、ローカル展開を計画する場合に不可欠です。VRAMはサポートできるコンテキストウィンドウサイズを制限します。
- ハードウェアコスト: OllamaモデルLLaMA 3.1 7Bは約8GB VRAM、13Bモデルは約16GB、70Bモデルは40GB以上必要です。GPUメモリが制限要因です。
- 機能トレードオフ: ローカルモデルは分類、要約、反復タスクに優れています。GPT-4oやClaude 4.6 Sonnetと比較して、マルチステップ推論、コード生成、創造的なライティングに苦労しています。
- レイテンシトレードオフ: クラウドモデルは500ms〜2sで応答します。コンシューマーハードウェア上のローカルモデル:モデルサイズとシステム仕様に応じて2〜10s。
- ローカルを使用する場合: 大量の自動化(1,000日+呼び出し/日)、GDPRに敏感なデータ(GDPR下の個人データを処理するEUユーザーはオンデバイス処理の恩恵を受けます)、または品質が「十分」のコスト関連ワークフロー。
- クラウドを使用する場合: レイテンシに敏感なアプリケーション、推論が必要なタスク、またはAPIコストが無視できる単発分析。
PromptQuorumがトークンコストを管理するのを支援する方法
PromptQuorumは2つのLLMを使用します。バックエンドLLMとフロントエンドLLM(プロンプト質問に答える選択したモデル)。 バックエンドLLMはプロンプトを最適化し、複数のフロントエンドモデル全体でQuorum コンセンサス分析を実行します。単一モデルのチャットインターフェイスとは異なり、PromptQuorumはトークン使用を可視化して実行可能にします。
バックエンドLLMトークンは常に表示されます。 フロントエンドトークンの可視性は、モデルにアクセスする方法に応じて異なります:
- 公開インターフェイス(Copilot、公開Claude Webチャット):フロントエンドトークンは表示されません。バックエンドトークンのみが表示されます。
- ローカルモデル(LM Studio、Ollama):フロントエンドトークンは表示されます。ハードウェア上で実行され、PromptQuorumはトークン使用を直接確認します。
- API(OpenAI、Anthropic):場合によります。直接API統合では、フロントエンドトークンが表示されます。サードパーティエンドポイントまたは公開インターフェイス経由では、フロントエンドトークンは表示されません。
PromptQuorumでテスト—20個の同一のリサーチサマリプロンプトをGPT-4oおよびGPT-4o miniに送信: 出力品質は20タスク中17で一致しました。コスト差:$0.003当たりプロンプト(GPT-4o)対$0.00007当たりプロンプト(ミニ)。43倍のコスト削減。GPT-4oが優位だった3つのタスクでは、複雑さはドキュメント全体の複数ステップの推論を伴いました。
トークンコストレシピ—一般的なシナリオ
特定のワークフローのコスト最適化の出発点として、これらのテンプレートを使用してください。
- 「クイック検索/はい-いいえタスク」: GPT-4o miniまたはHaikuを使用します。最小限のシステムプロンプト(≤50トークン)。会話履歴はありません。出力を1〜2文に制限します。タスクあたりの総コスト:~$0.00001〜0.0001。
- 「長いリサーチタスク(5〜10ターン)」: Claude 4.6 Sonnet(長いコンテキストに優れている)を使用します。5ターンごとに、会話を要約し、履歴をサマリーに置き換えます(トークンを70%削減)。コスト:~$0.01〜0.05リサーチセッションあたり。
- 「自動パイプライン/バッチ処理」: GPT-4o miniを使用してフィルタリングまたは分類(33倍安い)。エッジケースの最終合成のためにGPT-4oにのみエスケレートします。APIがサポートする場合、コンテキストキャッシュを再利用するために同様のプロンプトをバッチ処理します。
- 「プライバシーに敏感なワークフロー」: OllamaまたはLM Studioをローカルで実行するようにルーティングします。コンテキストウィンドウ:8GB VRAM用4k〜8kトークン、16GB用16k〜32k。ゼロAPIコスト。コンプライアンスのためにやや低い品質を受け入れます。
- 「モデル全体の出力を比較」: GPT-4o、Claude 4.6 Sonnet、Claude Haiku 4.5に同時に1つの構造化されたプロンプトを送信します。品質+コストを比較します。品質バーを満たす最も安いものを選択します。発見コスト:~$0.001。継続的なコスト:33〜43倍の貯蓄。
トークン請求書をスパイク,する一般的なエラー
これらのトークン浪費パターンを避けてください。
- すべての呼び出しで完全な会話履歴を送信: 会話が10ターン後に5,000トークンであれば、ターン11で5,000トークンを再度支払っています。わずか200トークンは新しいものです。解決策:5ターンごとに要約するか、APIがサポートしている場合はプロンプトキャッシングを使用します。
- 単純なタスクに高機能モデルを使用: GPT-4oを「このメールから日付を抽出」に使用しないでください。GPT-4o miniまたはHaikuを使用します。このタスク単独でのコスト差:33倍。
- 出力長を制限しない: 漠然とした「Xについて教えてください」プロンプトは500トークンを返すことができますが、「50語で要約する」は60トークンを返します。冗長な応答に8倍以上支払います。
- 毎回呼び出し時に長いシステムプロンプトを繰り返す: システムプロンプトが500トークンで100 APIコールを実行する場合、再利用またはキャッシングしないと50,000トークンが浪費されます。システムプロンプトテンプレートまたはリクエストレベルのキャッシングを使用します。
- 画像トークンを忘れる: 単一の高解像度画像は、解像度に応じて500〜2,000トークンを消費できます。アップロード前に画像をダウンスケールするか、関連領域にトリミングします。
- バッチ処理の代わりにマニュアルテスト呼び出しを実行: 20のプロンプト変動のテストはコストが1呼び出しのトークン費用の20倍です。バッチAPIまたはPromptQuorumの複数モデル比較を使用して、すべての変動を1ショットでテストします。
- 会話の途中でモデルを切り替える: クラウドAPI(OpenAI、Anthropic)はモデル間の会話コンテキストを転送しません。別のモデルで会話を再起動すると、すべての以前のメッセージが再度送信されます。会話ごとに1つのモデルにコミットしてください。
よくある質問
典型的な記事またはレポートはいくつのトークンですか?
1,000語の記事≈1,200〜1,500トークン。10ページのPDF≈4,000〜6,000トークン。単一の高解像度画像≈500〜2,000トークン(解像度とコンテンツ密度に応じて)。
短いプロンプトでもAPI請求書が予想より高いのはなぜですか?
3つの一般的な原因:(1)各呼び出しで完全な会話履歴を送信しています。5ターン後に要約します。(2)システムプロンプトが長い場合。本質的にトリミングしてください。(3)単純なタスクに高機能モデルを使用しています。分類または短いQ&AにはGPT-4o miniまたはHaikuに切り替えます。
より長いシステムプロンプトは常にボトルを出力しますか?
いいえ。よく作られた100トークンシステムプロンプトは、しばしば冗長な500トークンプロンプトを上回ります。品質は量を打ちます。特異性は冗長性を打ちます。
コストを節約するためにシステムプロンプトをキャッシュできますか?
OpenAIとAnthropicは両方とも、長いシステムプロンプトまたは繰り返されるプレフィックスのプロンプトキャッシングを提供しています。OpenAIはキャッシュされたトークンの90%割引を請求します。AnthropicはAnthropicは10%割引を請求します。API ドキュメントをチェックして、これを有効にします。これは要求に対する特定のヘッダーが必要です。
ローカルLLMは本当にゼロコストを持っていますか?
トークンあたりのゼロAPIコスト、はい。しかし、ハードウェアはお金がかかります:GPU VRAM(8GB = ~$100、16GB = ~$200)、電気代、およびローカルセットアップを管理する時間。単発クエリの場合、これは経済的ではありません。1,000以上のクエリ/日の場合、ローカルモデルは素早く損益分岐します。
大きなバッチを実行する前にコストを推定するにはどうすればいいですか?
推定値:(プロンプトあたりの平均トークン×プロンプト数)×(1M当たりの入力コスト+1M出力コスト)。PromptQuorumはバッチを実行する前にこれを自動的に実行します。プロンプトと目的のモデルを入力すると、総支出を予測します。
GPT-4o miniと比較してGPT-4oは費用がかかりますか?
ほとんどのタスクについて、GPT-4o miniがより良い選択です。GPT-4o miniはトークンあたり33倍の費用がかかり、分類、短いQ&A、データ抽出、定期的な要約を同等の精度で処理します。GPU-4o を必要とするタスク(マルチステップ推論、コード生成、ニュアンス分析、または長形式の構造化ライティング)—品質の違いを測定できるタスク—用にGPT-4oを予約してください。
ClaudeおよびGPT-4oトークンコストはどのように比較されますか?
2026年3月現在:Claude 4.6 Sonnetおよび GPT-4oは同様の価格です($3.00/$15.00対$5.00/$15.00の1,000,000入力/出力トークンあたり)。Claude 4.6 Sonnetは入力で40%安いです;GPT-4o出力コストは同じです。大量の入力が多い(大きなドキュメント、長いシステムプロンプト)、Claudeはコスト利点を持っています。出力が多いワークフロー(長いエッセイ、長いコード)の場合、コストは同等です。
関連の読み物
- Fundamentals:より高速なAI回答:スピードのためにプロンプト—プロンプト効率はトークンコストを直接削減
- Fundamentals:GPT、ClaudeまたはGemini?正しいモデルを選ぶ方法—モデル選択は最大のコストレバー
- Fundamentals:コンテキストウィンドウが説明:AIが忘れる理由—コンテキストウィンドウは、トークンまたは長さの上限に当たる前に含めることができる履歴の量を制限します