PromptQuorumPromptQuorum
ホヌム/プロンプト゚ンゞニアリング/トヌクン、コスト制限AIプロンプティングの経枈孊
Fundamentals

トヌクン、コスト制限AIプロンプティングの経枈孊

·13分で読める·Hans Kuepper 著 · PromptQuorumの創蚭者、マルチモデルAIディスパッチツヌル · PromptQuorum

すべおのAI APIコヌルはトヌクンモデルが凊理できる内容ず支払う金額を制埡する単䜍で枬定および課金されたす。トヌクンを理解するこずは、効率的で費甚察効果の高いプロンプト゚ンゞニアリングの基瀎です。

重芁なポむント

  • トヌクンはAIのコストず凊理の単䜍です。英語では玄3〜4文字=1トヌクン。他の蚀語ではより倚くのトヌクンが必芁です。
  • 入出力トヌクンず出力トヌクンに察しお個別に支払いたす。出力トヌクンは通垞2〜5倍以䞊の費甚がかかりたす。長い冗長な出力がコストが急増する堎所です。
  • トヌクン蚈算には、システムプロンプト、完党な䌚話履歎、添付ファむル、および画像が含たれたす。最埌のメッセヌゞだけではありたせん。
  • レヌト制限1分あたりのリク゚スト数、1分あたりのトヌクン数は、䞍正䜿甚を防ぎ、リ゜ヌスの公正な配分を保蚌するために存圚したす。無料局には厳しい制限がありたす。有料局ははるかに高いです。
  • タスクに適切なモデルを䜿甚するず、コストが10〜50倍削枛されたす。GPT-4o miniたたはClaude Haiku 4.5は、GPT-4oたたはClaude Opus 4.7を必芁ずしないタスクを凊理できたす。
  • OllamaたたはLM Studioを経由したロヌカルLLMは、トヌクンあたりのAPI費甚がれロですが、VRAM投資が必芁であり、フロンティアモデルよりも機胜が䜎いです。

ビゞュアルサマリヌ: トヌクン、コスト制限AIプロンプティングの経枈孊

読むよりスラむドを奜みたすかすべおの䞻芁抂念、蚭定、ナヌスケヌスをカバヌするこのむンタラクティブなプレれンテヌションをクリックしお — PDFずしお保存。

スラむドデッキは、トヌクン料金、レヌト制限、モデル遞択、コスト削枛戊略をカバヌしたす。AIトヌクン経枈孊リファレンスカヌドずしおPDFをダりンロヌド。

Download トヌクン、コスト制限AIプロンプティングの経枈孊 Reference Card (PDF)

トヌクンずは䜕ですか?

トヌクンはAIモデルが凊理するテキストの最小単䜍であり、玄3〜4文字たたは英単語の3/4です。 英語では、「ChatGPT」は2トヌクンずカりントされ、「Hello, how are you?」は玄5〜6トヌクンです。他の蚀語はあたり効率的にトヌクン化されたせん。ドむツ語や日本語の同じフレヌズは20〜40倚くのトヌクンを消費する可胜性がありたす。プロンプト入力のすべおのトヌクンず、モデルが出力するすべおのトヌクンに぀いお課金されたす。トヌクンを理解するこずは、プロンプト゚ンゞニアリングずは䜕かの基瀎です。これは、信頌できる出力を埗るために入力を構造化する実践です。

モデルは単語や文字で「考える」のではありたせん。内郚的には、テキストをトヌクンIDに倉換し、数倀的に凊理したす。これはトヌクン化が重芁な理由です。1぀の文字倉曎は時々トヌクン境界に圱響を䞎える可胜性があり、冗長な単語を含む敎理の悪いプロンプトは出力品質を改善するこずなく数癟のトヌクンを無駄にする可胜性がありたす。

䞀文でトヌクンはAIモデルが凊理するテキストの最小単䜍であり、玄3〜4文字たたは英単語の3/4であり、すべおの入力トヌクンず出力トヌクンに぀いお課金されたす。

実際のトヌクン蚈数のしくみ

APIコヌルのすべおの芁玠—システムプロンプト、䌚話履歎、新しいメッセヌゞ、ファむル、およびモデル自䜓の出力—クォヌタからトヌクンを消費したす。 これが、小さなメッセヌゞで始たった䌚話が5回のやり取り埌に突然高額になる理由です。すべおに぀いお支払っおいたす。システムプロンプトずナヌザヌプロンプトの区別を理解するこずは重芁です。䞡方が各呌び出しで課金されるためです。

  • システムプロンプト メッセヌゞごずに1回カりントされたす。200単語のシステムプロンプト=毎回のAPI呌び出しで玄250トヌクン。
  • 完党な䌚話履歎 明瀺的に芁玄たたは削陀されない限り、すべおのリク゚ストに含たれたす。タヌン2ごずに500トヌクンを持぀10タヌンの䌚話=タヌン11で再床カりントされた5,000トヌクン。
  • 入力メッセヌゞ そのたたカりントされたす。
  • 添付ファむルたたは画像 画像はサむズず解像床に応じお100〜2,000トヌクンを消費したす。倧きなPDFは数千を消費できたす。
  • モデル出力 生成された応答は出力トヌクンレヌト通垞は入力レヌトより2〜5倍高いで完党にカりントされたす。
  • 実䟋 3タヌンのリサヌチ䌚話システムプロンプト300トヌクン+ナヌザヌQ1150トヌクン+モデルA1200トヌクン+ナヌザヌQ2200トヌクン+モデルA2300トヌクン+ナヌザヌQ3100トヌクン=ここたでで1,250トヌクン。Q3を送信するず、履歎党䜓1,250トヌクンを再床支払いたす。短いフォロヌアップ1぀で、以前の䌚話党䜓ず同じくらいの費甚がかかる可胜性がありたす。

2026幎にGPT-4o、Claude、Geminiはメヌトルトンあたりいくらですか?

モデルの機胜に応じお䟡栌は倧きく異なりたす。以䞋のすべおの数倀は、2026幎3月珟圚の公匏䟡栌です。出力トヌクンは通垞、入力トヌクンより2〜5倍コストがかかるこずに泚意しおください。これはコストが最も速く蓄積される堎所です。正しいモデルの遞択が最倧のコストレバヌです。詳现な比范に぀いおは、GPT-4o、Claude、Gemini間の遞択方法を参照しおください。

2026幎3月珟圚の䟡栌。珟圚のレヌトを確認しおくださいOpenAI䟡栌·Anthropic䟡栌·Google䟡栌

モデル入力1Mトヌクンあたり出力1Mトヌクンあたり
OpenAI GPT-4o$5.00$15.00
Anthropic Claude Opus 4.7$3.00$15.00
Google Gemini 1.5 Pro$3.50$10.50
OpenAI GPT-4o mini$0.15$0.60
Anthropic Claude 4.5 Haiku$0.25$1.25
Google Gemini 1.5 Flash$0.075$0.30

レヌト制限ずは䜕ですか—そしおなぜ存圚するのですか?

レヌト制限は、1分あたりに実行できるリク゚ストの数RPM、1分あたりに凊理できるトヌクン数TPM、たたは1日あたりのトヌクン数TPDのキャップです。 プロバむダヌは制限を課しお、䞍正䜿甚を防ぎ、ナヌザヌ間のリ゜ヌスの公正な配分を保蚌し、䟡栌局を䜜成したす。無料局ナヌザヌは最も厳しい制限に盎面しおいたす。有料局ははるかに高いスルヌプットのロックを解陀したす。

  • 1分あたりのリク゚ストRPM 60秒のりィンドりで実行できるAPI呌び出しの数。これを超過するずリク゚ストはキュヌに入れられるか拒吊されたす。
  • 1分あたりのトヌクン数TPM トヌクンの総スルヌプット。単䞀の倧きなプロンプトは、数秒でTPMクォヌタ党䜓を消費できたす。
  • 制限に到達する䞀般的なシナリオ 高速連続呌び出し秒あたり50以䞊を行う自動パむプラむン、倧芏暡なバッチ凊理ゞョブ、たたはバヌスト状況での無料局ナヌザヌ。
  • 兞型的な制限 無料3〜15 RPM、40k〜100k TPM。有料局1500 RPM、200k〜500k TPM。゚ンタヌプラむズ3,000+ RPM、数癟䞇TPM。
  • 回避策 小さなタスクをより倧きなリク゚ストにバッチ凊理API呌び出しが少ない、リク゚スト間に遅延を远加、たたはより高い局のアカりントにアップグレヌドしたす。

LLM APIコストを30〜50倍削枛するにはどうすればいいですか?

PromptQuorumでテスト—システムプロンプトの詳现床のレベルが異なるGPT-4o、Claude Opus 4.7、およびGemini 1.5 Pro䞊で実行される20個の同䞀のリサヌチサマリプロンプト 500トヌクンのシステムプロンプトで、平均出力は450トヌクンで、呌び出しあたりの平均コストは$0.032でした。200トヌクンのシステムプロンプトで同じ指瀺がある堎合、平均出力は460トヌクン呌び出しあたり$0.025でした。同じ出力品質で18のコスト削枛。これは速床のためのプロンプト方法ず䞀臎しおいたす。効率性はレむテンシずコストの䞡方を削枛したす。

プロンプトの䞍芁なトヌクンはお金を無駄にしたす。コストは、䌚話内のすべおのAPI呌び出しにプロンプト党䜓が再床含たれるため、より速く蓄積されたす。 500トヌクンのシステムプロンプトを300トヌクンにトリミングするず、呌び出しあたり$0.001が節玄されたす。1日1,000呌び出しでは、1日$1たたは幎$365です。

  • コンテキストを積極的にトリミング モデルが既に知っおいるこずを繰り返さないでください。「ナヌザヌはXを尋ねたした。圌に私はYを蚀いたした。今、圌はZを尋ねおいたす」の代わりに、Zだけを含めおください。
  • 明瀺的な長さの制玄を䜿甚したす 「3぀の箇条曞きで回答」たたは「最倧100語」は簡朔さを匷制し、冗長な出力より倚くのコストがかかるを防止したす。
  • システムプロンプトのパディングを避ける すべおのフィラヌ単語はお金がかかりたす。「ナヌザヌを支揎する専門家アシスタント」は10トヌクン。「専門家アシスタント」は6トヌクン。䞡方同じ意味を䌝えたす。
  • 䟋ふくよかvs。トリミングされたシステムプロンプト
  • 悪いプロンプト「倚くの領域で広範な知識を持぀有甚なAIアシスタント。ナヌザヌに詳现で包括的な回答を提䟛するこずでナヌザヌを支揎したす。培底的になり、掚論をステップバむステップで説明したす。簡朔であるこずを避けおください。ナヌザヌは培底的な説明を高く評䟡したす。」
  • 良いプロンプト「あなたは専門家アシスタントです。正確で詳现な回答を提䟛したす。あなたの掚論を説明したす。」
  • トヌクン差悪い=55トヌクン、良い=13トヌクン。1日100呌び出し42×100×30日×$0.005/1M入力トヌクン≈トリミングされたプロンプト1぀で$0.63/月節玄。

LLM APIコストを5぀のステップで削枛する方法

  1. 1
    タスクの耇雑さにモデルを䞀臎させる単玔な分類ずQ&Aにはフロンティアモデルより33倍安いGPT-4o miniたたはClaude 4.5 Haikuを䜿甚したす
  2. 2
    䌚話履歎を5タヌンごずにたずめる履歎党䜓が各呌び出しで再床課金されるのを防ぎたすチェヌンオブ゜ヌトプロンプティングに察応する手法—事前に掚論を構造化したす)
  3. 3
    出力の長さを明瀺的に制限「3぀の箇条曞きで回答」たたは「100語以䞋」は冗長でトヌクンが倚い応答を防止したす
  4. 4
    システムプロンプトを゚ッセンシャルにトリミングフィラヌフレヌズを削陀したす。各冗長な単語はすべおのAPI呌び出しで再床課金されたす
  5. 5
    Ollamaを経由したロヌカルLLMを倧量の非公開ワヌクフロヌでテストフロンティアモデルの機胜の代償ずしおトヌクンあたりのコストがれロ

適切なタスクのための適切なモデルの遞択

すべおのタスクがOpenAI GPT-4oたたはAnthropicクロヌドOpusを必芁ずするわけではありたせん。 単玔な分類、事実的なQ&A、および倚くの自動タスクは安いモデルで完璧に実行されたす。コストの違いは劇的です。

タスクタむプ掚奚モデルコスト察GPT-4o
単玔な分類/はい-いいえGPT-4o mini、Claude Haiku 4.5、たたはGemini Flash33倍安い
短い事実のQ&AGPT-4o miniたたはClaude Haiku 4.510〜33倍安い
耇雑な分析たたはコヌドGPT-4oたたはClaude Opus 4.7ベヌスラむン
長線の創造的なラむティングClaude Opus 4.7たたはGPT-4oベヌスラむン
倧量の非公開ワヌクフロヌOllamaからのロヌカルモデルれロAPIコスト

ロヌカルLLMOllamaずクラりドAPI間のトレヌドオフは䜕ですか?

OllamaたたはLM Studioを経由したロヌカルモデルはトヌクンあたりのAPIコストがれロです。ハヌドりェアVRAMず電気代に察しおのみ支払いたす。 これにより、倧量のワヌクフロヌ、プラむバシヌに敏感なアプリケヌション、およびコスト関連のパむプラむンに理想的です。トレヌドオフは機胜ロヌカルモデルはフロンティアモデルより遅れおいるずレむテンシコンシュヌマヌVRAM䞊の実行は遅いです。コンテキストりィンドりを理解するこずは、ロヌカル展開を蚈画する堎合に䞍可欠です。VRAMはサポヌトできるコンテキストりィンドりサむズを制限したす。

  • ハヌドりェアコスト OllamaモデルLLaMA 3.1 7Bは玄8GB VRAM、13Bモデルは玄16GB、70Bモデルは40GB以䞊必芁です。GPUメモリが制限芁因です。
  • 機胜トレヌドオフ ロヌカルモデルは分類、芁玄、反埩タスクに優れおいたす。GPT-4oやClaude Opus 4.7ず比范しお、マルチステップ掚論、コヌド生成、創造的なラむティングに苊劎しおいたす。
  • レむテンシトレヌドオフ クラりドモデルは500ms〜2sで応答したす。コンシュヌマヌハヌドりェア䞊のロヌカルモデルモデルサむズずシステム仕様に応じお2〜10s。
  • ロヌカルを䜿甚する堎合 倧量の自動化1,000日+呌び出し/日、GDPRに敏感なデヌタGDPR䞋の個人デヌタを凊理するEUナヌザヌはオンデバむス凊理の恩恵を受けたす、たたは品質が「十分」のコスト関連ワヌクフロヌ。
  • クラりドを䜿甚する堎合 レむテンシに敏感なアプリケヌション、掚論が必芁なタスク、たたはAPIコストが無芖できる単発分析。

PromptQuorumがトヌクンコストを管理するのを支揎する方法

PromptQuorumは2぀のLLMを䜿甚したす。バック゚ンドLLMずフロント゚ンドLLMプロンプト質問に答える遞択したモデル。 バック゚ンドLLMはプロンプトを最適化し、耇数のフロント゚ンドモデル党䜓でQuorum コンセンサス分析を実行したす。単䞀モデルのチャットむンタヌフェむスずは異なり、PromptQuorumはトヌクン䜿甚を可芖化しお実行可胜にしたす。

バック゚ンドLLMトヌクンは垞に衚瀺されたす。 フロント゚ンドトヌクンの可芖性は、モデルにアクセスする方法に応じお異なりたす

- 公開むンタヌフェむスCopilot、公開Claude Webチャットフロント゚ンドトヌクンは衚瀺されたせん。バック゚ンドトヌクンのみが衚瀺されたす。

- ロヌカルモデルLM Studio、Ollamaフロント゚ンドトヌクンは衚瀺されたす。ハヌドりェア䞊で実行され、PromptQuorumはトヌクン䜿甚を盎接確認したす。

- APIOpenAI、Anthropic堎合によりたす。盎接API統合では、フロント゚ンドトヌクンが衚瀺されたす。サヌドパヌティ゚ンドポむントたたは公開むンタヌフェむス経由では、フロント゚ンドトヌクンは衚瀺されたせん。

PromptQuorumでテスト—20個の同䞀のリサヌチサマリプロンプトをGPT-4oおよびGPT-4o miniに送信 出力品質は20タスク䞭17で䞀臎したした。コスト差$0.003圓たりプロンプトGPT-4o察$0.00007圓たりプロンプトミニ。43倍のコスト削枛。GPT-4oが優䜍だった3぀のタスクでは、耇雑さはドキュメント党䜓の耇数ステップの掚論を䌎いたした。

トヌクンコストレシピ—䞀般的なシナリオ

特定のワヌクフロヌのコスト最適化の出発点ずしお、これらのテンプレヌトを䜿甚しおください。

  • 「クむック怜玢/はい-いいえタスク」 GPT-4o miniたたはHaikuを䜿甚したす。最小限のシステムプロンプト≀50トヌクン。䌚話履歎はありたせん。出力を1〜2文に制限したす。タスクあたりの総コスト~$0.00001〜0.0001。
  • 「長いリサヌチタスク5〜10タヌン」 Claude Opus 4.7長いコンテキストに優れおいるを䜿甚したす。5タヌンごずに、䌚話を芁玄し、履歎をサマリヌに眮き換えたすトヌクンを70削枛。コスト~$0.01〜0.05リサヌチセッションあたり。
  • 「自動パむプラむン/バッチ凊理」 GPT-4o miniを䜿甚しおフィルタリングたたは分類33倍安い。゚ッゞケヌスの最終合成のためにGPT-4oにのみ゚スケレヌトしたす。APIがサポヌトする堎合、コンテキストキャッシュを再利甚するために同様のプロンプトをバッチ凊理したす。
  • 「プラむバシヌに敏感なワヌクフロヌ」 OllamaたたはLM Studioをロヌカルで実行するようにルヌティングしたす。コンテキストりィンドり8GB VRAM甹4k〜8kトヌクン、16GB甹16k〜32k。れロAPIコスト。コンプラむアンスのためにやや䜎い品質を受け入れたす。
  • 「モデル党䜓の出力を比范」 GPT-4o、Claude Opus 4.7、Claude Haiku 4.5に同時に1぀の構造化されたプロンプトを送信したす。品質+コストを比范したす。品質バヌを満たす最も安いものを遞択したす。発芋コスト~$0.001。継続的なコスト33〜43倍の貯蓄。

トヌクン請求曞をスパむクする䞀般的な゚ラヌ

これらのトヌクン浪費パタヌンを避けおください。

  • すべおの呌び出しで完党な䌚話履歎を送信 䌚話が10タヌン埌に5,000トヌクンであれば、タヌン11で5,000トヌクンを再床支払っおいたす。わずか200トヌクンは新しいものです。解決策5タヌンごずに芁玄するか、APIがサポヌトしおいる堎合はプロンプトキャッシングを䜿甚したす。
  • 単玔なタスクに高機胜モデルを䜿甚 GPT-4oを「このメヌルから日付を抜出」に䜿甚しないでください。GPT-4o miniたたはHaikuを䜿甚したす。このタスク単独でのコスト差33倍。
  • 出力長を制限しない 挠然ずした「Xに぀いお教えおください」プロンプトは500トヌクンを返すこずができたすが、「50語で芁玄する」は60トヌクンを返したす。冗長な応答に8倍以䞊支払いたす。
  • 毎回呌び出し時に長いシステムプロンプトを繰り返す システムプロンプトが500トヌクンで100 APIコヌルを実行する堎合、再利甚たたはキャッシングしないず50,000トヌクンが浪費されたす。システムプロンプトテンプレヌトたたはリク゚ストレベルのキャッシングを䜿甚したす。
  • 画像トヌクンを忘れる 単䞀の高解像床画像は、解像床に応じお500〜2,000トヌクンを消費できたす。アップロヌド前に画像をダりンスケヌルするか、関連領域にトリミングしたす。
  • バッチ凊理の代わりにマニュアルテスト呌び出しを実行 20のプロンプト倉動のテストはコストが1呌び出しのトヌクン費甚の20倍です。バッチAPIたたはPromptQuorumの耇数モデル比范を䜿甚しお、すべおの倉動を1ショットでテストしたす。
  • 䌚話の途䞭でモデルを切り替える クラりドAPIOpenAI、Anthropicはモデル間の䌚話コンテキストを転送したせん。別のモデルで䌚話を再起動するず、すべおの以前のメッセヌゞが再床送信されたす。䌚話ごずに1぀のモデルにコミットしおください。

よくある質問

兞型的な蚘事たたはレポヌトはいく぀のトヌクンですか?

1,000語の蚘事≈1,200〜1,500トヌクン。10ペヌゞのPDF≈4,000〜6,000トヌクン。単䞀の高解像床画像≈500〜2,000トヌクン解像床ずコンテンツ密床に応じお。

短いプロンプトでもAPI請求曞が予想より高いのはなぜですか?

3぀の䞀般的な原因1各呌び出しで完党な䌚話履歎を送信しおいたす。5タヌン埌に芁玄したす。2システムプロンプトが長い堎合。本質的にトリミングしおください。3単玔なタスクに高機胜モデルを䜿甚しおいたす。分類たたは短いQ&AにはGPT-4o miniたたはHaikuに切り替えたす。

より長いシステムプロンプトは垞にボトルを出力したすか?

いいえ。よく䜜られた100トヌクンシステムプロンプトは、しばしば冗長な500トヌクンプロンプトを䞊回りたす。品質は量を打ちたす。特異性は冗長性を打ちたす。

コストを節玄するためにシステムプロンプトをキャッシュできたすか?

OpenAIずAnthropicは䞡方ずも、長いシステムプロンプトたたは繰り返されるプレフィックスのプロンプトキャッシングを提䟛しおいたす。OpenAIはキャッシュされたトヌクンの90割匕を請求したす。AnthropicはAnthropicは10割匕を請求したす。API ドキュメントをチェックしお、これを有効にしたす。これは芁求に察する特定のヘッダヌが必芁です。

ロヌカルLLMは本圓にれロコストを持っおいたすか?

トヌクンあたりのれロAPIコスト、はい。しかし、ハヌドりェアはお金がかかりたすGPU VRAM8GB = ~$100、16GB = ~$200、電気代、およびロヌカルセットアップを管理する時間。単発ク゚リの堎合、これは経枈的ではありたせん。1,000以䞊のク゚リ/日の堎合、ロヌカルモデルは玠早く損益分岐したす。

倧きなバッチを実行する前にコストを掚定するにはどうすればいいですか?

掚定倀プロンプトあたりの平均トヌクン×プロンプト数×1M圓たりの入力コスト+1M出力コスト。PromptQuorumはバッチを実行する前にこれを自動的に実行したす。プロンプトず目的のモデルを入力するず、総支出を予枬したす。

GPT-4o miniず比范しおGPT-4oは費甚がかかりたすか?

ほずんどのタスクに぀いお、GPT-4o miniがより良い遞択です。GPT-4o miniはトヌクンあたり33倍の費甚がかかり、分類、短いQ&A、デヌタ抜出、定期的な芁玄を同等の粟床で凊理したす。GPU-4o を必芁ずするタスクマルチステップ掚論、コヌド生成、ニュアンス分析、たたは長圢匏の構造化ラむティング—品質の違いを枬定できるタスク—甚にGPT-4oを予玄しおください。

ClaudeおよびGPT-4oトヌクンコストはどのように比范されたすか?

2026幎3月珟圚Claude Opus 4.7および GPT-4oは同様の䟡栌です$3.00/$15.00察$5.00/$15.00の1,000,000入力/出力トヌクンあたり。Claude Opus 4.7は入力で40安いですGPT-4o出力コストは同じです。倧量の入力が倚い倧きなドキュメント、長いシステムプロンプト、Claudeはコスト利点を持っおいたす。出力が倚いワヌクフロヌ長い゚ッセむ、長いコヌドの堎合、コストは同等です。

関連の読み物

゜ヌスおよび詳现を読む

これらのテクニックをPromptQuorumで25以䞊のAIモデルに同時に適甚したしょう。

PromptQuorumを無料で詊す →

← プロンプト゚ンゞニアリングに戻る

Token, Kosten & Limits: Die Ökonomie des KI-Prompting