Home/Local LLMs/LM Studio 및 Ollama OpenAI 호환 API 문서: Python, Node.js, Aider, Cline, Roo Code (2026)

도구 및 인터페이스

LM Studio 및 Ollama OpenAI 호환 API 문서: Python, Node.js, Aider, Cline, Roo Code (2026)

Last updated: 2026년 7월 14일·11분 읽기·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

LM Studio(localhost:1234), Ollama(localhost:11434), vLLM(localhost:8000)은 모두 OpenAI 형식의 REST API를 제공합니다. 이는 모든 엔드포인트, 요청 형식, 코드 예제에 대한 문서입니다. 두 줄만 변경하면 공식 OpenAI Python 또는 Node.js SDK로 로컬 모델을 사용할 수 있습니다. base_url을 로컬 엔드포인트로, api_key를 임의의 문자열로 설정하면 됩니다.

LM Studio(localhost:1234), Ollama(localhost:11434), vLLM(localhost:8000)은 모두 OpenAI 형식의 REST API를 제공합니다. 이 페이지는 모든 엔드포인트, 요청 형식, 코드 예제를 문서화합니다. 두 줄만 변경하면 공식 OpenAI Python 또는 Node.js SDK로 로컬 모델을 사용할 수 있습니다. base_url을 로컬 엔드포인트로, api_key를 임의의 문자열로 설정하면 됩니다. 동일한 base_url 설정으로 Aider, Cline, Roo Code와 같은 AI 코딩 도구도 로컬 모델에 연결할 수 있습니다. 2026년 5월 기준, 이 방식은 클라우드 비용이나 벤더 종속 없이 로컬 LLM을 Python 및 Node.js 프로덕션 애플리케이션에서 실행하는 표준 방법입니다.

LM Studio 및 Ollama OpenAI 호환 API 문서: Python, Node.js, Aider, Cline, Roo Code (2026)

Key Takeaways

Ollama는 OpenAI API와 동일한 형식의 REST API를 `http://localhost:11434/v1`에서 제공합니다.
OpenAI Python 라이브러리 사용 시: `api_key="openai"`를 `api_key="ollama"`로, `base_url="http://localhost:11434/v1"`로 변경하면 됩니다.
Node.js도 동일한 방식으로 사용 가능합니다. OpenAI SDK를 사용하여 localhost:11434로 연결하면 됩니다.
OpenAI 호환 API는 Ollama, vLLM, LM Studio 모두 동일합니다. 코드 변경 없이 제공자를 전환할 수 있습니다.
2026년 5월 기준, 스트리밍(토큰별 응답)과 함수 호출 모두 이 API를 통해 로컬 모델에서 작동합니다.
Aider, Cline, Roo Code는 모두 동일한 base_url 설정으로 로컬 모델에 연결됩니다. 별도의 통합 작업이 필요하지 않습니다.

⚡ 빠른 정보

Ollama API: `http://localhost:11434/v1` — OpenAI의 `/chat/completions`와 완전히 동일

LM Studio API: `http://localhost:1234/v1` — 동일한 형식, 다른 포트

vLLM API: `http://localhost:8000/v1` — 프로덕션 수준 서빙

코드 변경: 2줄 — `base_url`과 `api_key`. 나머지 코드는 그대로 유지됩니다.

지원 기능: 채팅 완성, 텍스트 완성, 임베딩, 스트리밍, 함수 호출

AI 코딩 도구: Aider, Cline, Roo Code는 모두 동일한 base_url을 사용하는 OpenAI 호환 제공자 모드를 지원합니다

인증: 기본적으로 없음 — localhost 접근만 가능. 네트워크 접근을 위해서는 리버스 프록시를 추가하세요.

코드 예제 모델: Llama 4 Scout (12 GB에서 최고 품질, MoE) 또는 Llama 3.2 3B (경량형)

OpenAI 호환이란 무엇을 의미합니까?

OpenAI 호환이란 API 엔드포인트가 OpenAI API와 동일한 형식으로 응답을 반환한다는 의미입니다. 이를 통해 OpenAI용으로 만들어진 모든 라이브러리나 도구가 다른 URL을 가리키는 것만으로 로컬 모델과 함께 작동할 수 있습니다. 이 표준의 구현 방식에서 Ollama vs LM Studio가 어떻게 다른지 알아보세요.

예시: OpenAI Python 라이브러리는 다음과 같이 요청을 보냅니다:

``` POST /chat/completions { "model": "gpt-4o", "messages": [...], "temperature": 0.7 } ```

Ollama의 API는 `localhost:11434/v1/chat/completions`에서 완전히 동일한 요청을 수신하며 OpenAI 형식으로 응답을 반환합니다:

``` { "choices": [{"message": {"content": "..."}}], "usage": {"prompt_tokens": 10, "completion_tokens": 20} } ```

형식이 동일하기 때문에 새로운 API를 배울 필요도, 코드를 다시 작성할 필요도 없습니다.

---

🔍 알고 계셨습니까? OpenAI API 형식은 모든 LLM API의 비공식 표준이 되었습니다. Anthropic(Claude), Google(Gemini), 그리고 모든 주요 로컬 추론 도구(Ollama, vLLM, LM Studio, llama.cpp)가 이 형식을 지원합니다. 이 형식으로 작성된 코드는 진정한 의미에서 제공자에 독립적입니다. AI 업계가 보유한 범용 API에 가장 가까운 형태입니다.

OpenAI에서 Ollama로 전환하려면 base_url과 api_key 두 줄만 변경하면 됩니다. 나머지 코드는 그대로 유지됩니다.

Ollama의 API 엔드포인트는 무엇입니까?

**`ollama serve`를 실행하면 Ollama가 `http://localhost:11434`에서 REST API를 시작합니다.** OpenAI 호환 엔드포인트는 다음과 같습니다:

Endpoint	URL	Description
채팅 완성	POST http://localhost:11434/v1/chat/completions	OpenAI의 `/chat/completions`와 일치
텍스트 완성	POST http://localhost:11434/v1/completions	OpenAI의 `/completions`와 일치
임베딩	POST http://localhost:11434/v1/embeddings	텍스트를 벡터로 변환
모델 목록	GET http://localhost:11434/v1/models	사용 가능한 모델 목록 조회

Ollama는 OpenAI 형식의 요청을 받아 로컬에서 추론을 실행합니다. 응답은 동일한 OpenAI 형식으로 반환되며 인터넷 연결이 필요 없습니다.

Python에서 Ollama API를 사용하는 방법(OpenAI 라이브러리)?

OpenAI 라이브러리를 설치하고 localhost를 가리키도록 설정하면 됩니다.

🔍 전문가 팁: `OPENAI_BASE_URL=http://localhost:11434/v1`을 환경 변수로 설정하세요. 많은 도구(LangChain, LlamaIndex, aider)가 이 변수를 자동으로 읽습니다. 코드를 변경할 필요 없이 환경 변수 하나만 바꿔서 OpenAI와 Ollama를 전환할 수 있습니다.

python

# 1. Install the OpenAI library
pip install openai

# 2. Connect to Ollama
from openai import OpenAI

client = OpenAI(
  base_url="http://localhost:11434/v1",
  api_key="ollama"  # dummy key; Ollama ignores it
)

# 3. Make a request
response = client.chat.completions.create(
  model="llama4:scout",  # Best quality on 12 GB VRAM (MoE)
  # model="llama3.2:3b",  # Lightweight alternative for 8 GB RAM
  messages=[
    {"role": "user", "content": "What is 2+2?"}
  ]
)

print(response.choices[0].message.content)

Node.js에서 Ollama API를 사용하는 방법은?

OpenAI SDK를 설치하고 로컬 Ollama 인스턴스에 연결하면 됩니다.

javascript

// 1. Install
npm install openai

// 2. Connect to Ollama
const OpenAI = require("openai").default;

const client = new OpenAI({
  baseURL: "http://localhost:11434/v1",
  apiKey: "ollama"
});

// 3. Make a request
const response = await client.chat.completions.create({
  model: "llama4:scout",       // Best quality on 12 GB VRAM
  // model: "llama3.2:3b",     // Lightweight for 8 GB RAM
  messages: [{
    role: "user",
    content: "What is 2+2?"
  }]
});

console.log(response.choices[0].message.content);

LM Studio OpenAI 호환 서버 사용법(localhost:1234)

**LM Studio는 `http://localhost:1234/v1`에서 OpenAI 호환 API를 제공합니다.** 로컬 서버 탭에서 활성화하고 모델을 불러온 후 서버 시작을 클릭하면 됩니다. 동일한 Python 및 Node.js 코드가 LM Studio에서도 작동합니다. 포트만 11434에서 1234로 변경하면 됩니다.

LM Studio는 GUI를 통해 모델을 탐색하고 쉽게 전환하려는 사용자에게 적합합니다. 스크립팅, 자동화, CI 파이프라인에는 Ollama가 더 적합합니다.

Platform	Port	Best For	GPU Required
LM Studio	localhost:1234	GUI 사용자, 시각적 모델 관리	아니오 (CPU 가능)
Ollama	localhost:11434	스크립팅, 자동화, 프로덕션	아니오 (CPU 가능)
vLLM	localhost:8000	다중 GPU, 고처리량 서버	권장

python

# Python: Connect to LM Studio (localhost:1234)
from openai import OpenAI

client = OpenAI(
  base_url="http://localhost:1234/v1",
  api_key="lm-studio"  # any string; LM Studio ignores it
)

response = client.chat.completions.create(
  model="llama-3.2-3b-instruct",  # exact model name shown in LM Studio
  messages=[
    {"role": "user", "content": "What is 2+2?"}
  ]
)

print(response.choices[0].message.content)

브라우저 JavaScript에서 Ollama API를 사용하는 방법은?

브라우저 측 JavaScript에서 Ollama를 호출하려면 브라우저와 서버가 같은 머신에 있어야 하거나 CORS를 허용해야 합니다. 보안상의 이유로 localhost에 대한 브라우저 요청은 JavaScript가 localhost에서 제공될 때만 작동합니다. CORS를 원활하게 처리하는 브라우저용 UI는 최고의 로컬 LLM 프론트엔드를 확인하세요.

다른 IP의 브라우저에서 Ollama를 호출해야 하는 경우 CORS 프록시를 설정하거나 서버 측 미들웨어를 사용하세요.

javascript

// Browser-side JavaScript (if server is localhost:3000, Ollama is localhost:11434)
fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "llama4:scout",      // Best quality on 12 GB VRAM
    // model: "llama3.2:3b",    // Lightweight for 8 GB RAM
    messages: [{ role: "user", content: "What is 2+2?" }]
  })
})
  .then(res => res.json())
  .then(data => console.log(data.choices[0].message.content))

토큰별 응답 스트리밍 방법은?

스트리밍을 사용하면 전체 응답을 기다리지 않고 생성되는 대로 토큰 단위로 응답을 표시할 수 있습니다. 2026년 5월 기준, 스트리밍은 OpenAI 호환 API를 통한 모든 로컬 모델에서 작동합니다.

python

# Python: streaming example
from openai import OpenAI

client = OpenAI(
  base_url="http://localhost:11434/v1",
  api_key="ollama"
)

stream = client.chat.completions.create(
  model="llama4:scout",
  messages=[{"role": "user", "content": "Count to 10"}],
  stream=True
)

for chunk in stream:
  if chunk.choices[0].delta.content:
    print(chunk.choices[0].delta.content, end="", flush=True)

stream=True를 사용하면 Ollama가 약 0.1초 내에 첫 번째 토큰을 전달합니다. 전체 응답을 기다리지 않고 즉시 출력을 볼 수 있습니다.

로컬 모델에서 함수를 호출할 수 있습니까?

네, 2026년 5월 기준으로 OpenAI API를 통해 로컬 모델에서 함수 호출이 가능합니다. 함수 스키마를 정의하면 모델이 함수에 전달할 인수로 응답할 수 있습니다. 이를 통해 코딩을 위한 최고의 로컬 LLM이 도구 생태계와 통합될 수 있습니다.

함수 호출 지원 여부는 모델에 따라 다릅니다. Llama 4 Scout, Qwen3 8B, Gemma 4 9B, Mistral Small 3.1 모두 도구 호출을 안정적으로 지원합니다. Llama 3.3 8B와 Qwen3 7B도 지원됩니다(레거시). 더 작은 모델(3B)은 구조화된 도구 호출 JSON을 안정적으로 생성하지 못할 수 있습니다.

2026년에는 Model Context Protocol(MCP)이 함수 호출을 표준화된 도구 연결 레이어로 확장합니다. MCP는 모든 클라이언트(Claude Code, Cursor, 커스텀 앱)가 단일 프로토콜을 통해 모든 도구 서버에 연결할 수 있게 합니다. 위에 표시된 요청별 도구 정의를 넘어섭니다. Ollama는 표준 OpenAI 호환 함수 호출 API를 통해 MCP 스타일의 도구 호출을 지원합니다. 프로덕션 도구 통합의 경우 MCP가 표준이 되고 있으며, 여기의 함수 호출 예제는 그 기반입니다.

OpenAI 호환 API를 로컬에서 사용할 때 구조화된 출력과 JSON 모드는 클라우드 API와 동일한 방식으로 작동합니다. 로컬 및 클라우드 모델에서 스키마 준수 및 형식 제어를 위해 구조화된 출력 및 JSON 모드를 참조하세요.

OpenAI 호환 API는 클라우드 버전과 동일한 프롬프트 형식을 수용합니다. 시스템 메시지, 사용자 메시지, 구조화된 출력이 모두 포함됩니다. 프롬프트 엔지니어링 기법의 전체 라이브러리가 로컬 API 호출에 직접 적용됩니다.

python

# Example: local model calls a weather function
tools = [{
  "type": "function",
  "function": {
    "name": "get_weather",
    "description": "Get current weather",
    "parameters": {
      "type": "object",
      "properties": {
        "location": {"type": "string"}
      }
    }
  }
}]

response = client.chat.completions.create(
  model="llama4:scout",
  messages=[{"role": "user", "content": "What is the weather in SF?"}],
  tools=tools
)

# Check if model returned a function call
if response.choices[0].message.tool_calls:
  call = response.choices[0].message.tool_calls[0]
  print(f"Call function: {call.function.name} with {call.function.arguments}")

Ollama를 사용한 함수 호출 흐름: 로컬 모델이 tool_call JSON을 반환하면 앱이 함수를 실행합니다. Llama 4 Scout, Qwen3 8B, Gemma 4 9B, Mistral에서 지원됩니다.

Aider, Cline, Roo Code를 로컬 모델에 연결하는 방법은?

**Aider, Cline, Roo Code를 이 가이드의 다른 부분에서 사용한 것과 동일한 OpenAI 호환 base_url -- Ollama는 `http://localhost:11434/v1`, LM Studio는 `http://localhost:1234/v1` -- 로 지정하고, API 키에는 임의의 문자열을 사용하면 됩니다.** 세 도구 모두 이러한 용도를 위해 만들어진 범용 "OpenAI Compatible" 제공자 모드를 지원합니다.

Cline과 Roo Code(Cline의 포크)는 동일한 설정 패턴을 공유합니다. VS Code에서 확장 프로그램 설정을 열고, OpenAI Compatible API 제공자를 선택한 다음, Base URL과 임의의 API 키를 입력하고, `ollama list` 또는 LM Studio 모델 브라우저에 표시된 정확한 모델 이름을 입력하면 됩니다.

Aider는 동일한 OpenAI 호환 계층을 사용하여 `OPENAI_API_BASE`와 `OPENAI_API_KEY` 환경 변수(또는 이에 상응하는 명령줄 플래그)를 로컬 서버로 지정하는 방식으로 연결됩니다. Aider는 자체 제공자 접두사를 통한 네이티브 Ollama 지원도 갖추고 있습니다. 정확한 플래그 이름은 버전마다 달라지므로 현재 권장되는 방법은 Aider의 최신 문서를 확인하시기 바랍니다.

개발 중 API 비용을 없애고 싶거나, 코드가 외부로 나가면 안 되거나, 프로덕션에서 클라우드 모델로 전환하기 전에 프롬프트를 테스트하려는 경우에는 Aider, Cline, Roo Code에서 로컬 모델을 사용하십시오. 8-24 GB VRAM 모델이 안정적으로 처리할 수 있는 범위를 넘어서는 긴 컨텍스트 추론이 필요한 경우에는 로컬 모델 사용을 피하고, 클라우드 모델이나 더 큰 로컬 모델(Llama 4 Scout)로 전환하십시오.

Tool	Config Location	Local Base URL
Cline	VS Code 확장 설정 → API Provider → OpenAI Compatible	http://localhost:11434/v1 (Ollama) 또는 :1234/v1 (LM Studio)
Roo Code	VS Code 확장 설정 → API Provider (Cline과 동일한 패턴)	http://localhost:11434/v1 (Ollama) 또는 :1234/v1 (LM Studio)
Aider	OPENAI_API_BASE / OPENAI_API_KEY 환경 변수 또는 CLI 플래그	http://localhost:11434/v1 (Ollama) 또는 :1234/v1 (LM Studio)

지역별 로컬 LLM OpenAI API

EU / GDPR 및 AI 법: EU 개발자의 경우 Ollama를 로컬에서 실행하면 GDPR 제5조 준수(데이터 최소화)가 보장됩니다. 모든 추론이 클라우드 API로의 데이터 유출 없이 기기에서 처리됩니다. Ollama는 MIT 라이선스로 GitHub에서 다운로드할 수 있어 EU 규정 준수 요건을 충족합니다. EU AI 법 고위험 시스템 의무는 2026년 8월 2일부터 적용됩니다(Digital Omnibus 대기 중). 로컬 API 추론은 기본적으로 GDPR 데이터 거주 요건을 충족합니다. 기업의 경우 벤더 종속을 없애고 데이터 거주를 보장합니다.

일본 / APPI: 일본의 개인정보보호법(APPI)에 따르면 온프레미스 모델 추론은 클라우드 데이터 전송 요건을 우회합니다. Ollama + Qwen3 8B는 표준 기업 노트북(8 GB RAM)에서 실행 가능하며 Qwen3 대비 향상된 일본어 지원과 30-50 tok/sec 지연 시간으로 일본어 처리의 실시간 응답 기대치를 충족합니다.

중국 / CAC: 중국 사이버보안법(CAC 제37조)에 따른 배포 시 로컬 추론이 데이터 현지화 요건을 충족합니다. Ollama + Qwen3는 외부 API 호출 없이 모든 Linux 기기에서 실행됩니다. Qwen3의 네이티브 중국어 토크나이저는 Llama 대비 30-40% 효율을 높여 로컬 추론 오버헤드를 줄입니다.

로컬 LLM OpenAI API에서 자주 발생하는 실수는?

API 키가 무시된다는 것을 잊는 경우. Ollama는 인증하지 않으므로 `api_key="ollama"`(임의의 문자열 가능)가 필요합니다. 실제 인증은 요청이 인터넷이 아닌 localhost나 로컬 네트워크에서 온다는 것입니다.
모델 이름이 중요하다는 것을 인식하지 못하는 경우. `/chat/completions`를 `model="gpt-4"`로 호출했지만 Ollama에 `llama3.2:3b`만 풀링되어 있다면 요청이 실패합니다. `ollama list`에서 정확한 모델 이름을 사용하세요.
Ollama가 인터넷이 필요하다고 가정하는 경우. 그렇지 않습니다. API는 완전히 로컬입니다. 하지만 Python 코드가 기본적으로 OpenAI 서버에 먼저 접근하려 하면 실패합니다. 항상 `base_url`을 명시적으로 설정하세요.
브라우저에서의 CORS 오류. 브라우저 측 스크립트에서 Ollama를 호출할 때 CORS 오류가 발생하면 보안 이유로 브라우저가 요청을 차단한 것입니다. CORS를 우회하는 에디터 기반 솔루션은 VS Code 및 Cursor로 로컬 LLM 사용하기를 참조하세요.
스트리밍을 원할 때 stream=True를 설정하지 않는 경우. 토큰별 응답을 원한다면 요청에 `stream=True`를 명시적으로 설정해야 합니다. 기본값은 전체 응답을 기다립니다.
더 나은 모델이 있는데도 예제에서 `llama3.2:3b`를 사용하는 경우. 많은 튜토리얼이 8 GB RAM에서 실행되기 때문에 아직도 Llama 3.2 3B를 사용합니다. 12+ GB VRAM이 있다면 `llama4:scout`로 전환하세요. 동일한 API 코드로 훨씬 높은 품질을 얻을 수 있습니다. 3B 모델은 API 통합 테스트용으로만 사용하고 프로덕션 워크로드에는 사용하지 마세요.
동시 요청을 위해 `OLLAMA_NUM_PARALLEL`을 설정하지 않는 경우. 기본적으로 Ollama는 한 번에 하나의 요청만 처리합니다. 다중 사용자 앱이나 병렬 테스트 스위트의 경우 동시 API 호출을 처리하기 위해 `OLLAMA_NUM_PARALLEL=4`(또는 더 높게)를 설정하세요. 이를 설정하지 않으면 요청이 대기열에 쌓이고 지연 시간이 급증합니다.
---
⚠️ 경고: Ollama의 API는 기본적으로 인증이 없습니다. 네트워크에 노출하면(`OLLAMA_HOST=0.0.0.0`) 해당 네트워크의 누구나 요청을 보내고, 모델을 불러오고, GPU 리소스를 소비할 수 있습니다. 다중 사용자 또는 프로덕션 설정의 경우 인증이 있는 리버스 프록시(nginx, Caddy)를 Ollama 앞에 배치하세요. 포트 11434를 인터넷에 직접 노출하지 마세요.

Ollama(포트 11434), vLLM(포트 8000), LM Studio(포트 1234) 모두 OpenAI 호환 엔드포인트를 제공합니다. 동일한 클라이언트 코드, 다른 포트와 사용 사례입니다.

로컬 LLM API에 관한 자주 묻는 질문

Ollama를 사용하기 위해 OpenAI 코드를 수정해야 합니까?

아니요. `base_url="http://localhost:11434/v1"`와 `api_key="ollama"`를 설정하면 됩니다. 나머지는 그대로 유지됩니다. OpenAI 라이브러리를 사용하는 코드가 있다면 이 두 줄을 교체하면 로컬 모델에서 작동합니다.

네트워크의 다른 컴퓨터에서 API를 사용할 수 있습니까?

네. 기본적으로 Ollama는 localhost에서만 수신합니다. 네트워크 접근을 허용하려면 Ollama를 실행하기 전에 환경 변수 `OLLAMA_HOST=0.0.0.0:11434`를 설정하세요. 그런 다음 코드에서 `http://<machine-ip>:11434/v1`로 연결하면 됩니다. 보안에 주의하세요. 프로덕션 환경이라면 방화벽을 사용하세요.

LM Studio에는 OpenAI 호환 API가 있습니까?

네. LM Studio는 `http://localhost:1234/v1`에서 OpenAI 호환 API를 제공합니다. 로컬 서버 탭에서 활성화하고 모델을 불러온 후 서버 시작을 클릭하세요. Ollama와 동일한 Python 또는 Node.js 코드를 사용하면 됩니다. 포트만 11434에서 1234로 변경하면 됩니다.

여러 모델을 동시에 호출할 수 있습니까?

Ollama에 로드되어 있다면 가능합니다. 하지만 두 모델을 동시에 실행하면 VRAM 사용량이 두 배가 됩니다. 충분한 GPU 메모리가 있어야 합니다.

API에 인증이 있습니까?

아니요. 기본적으로 Ollama API에는 인증이 없습니다. localhost:11434에 접근할 수 있는 누구나 사용할 수 있습니다. 네트워크 접근이 있는 프로덕션 환경에서는 리버스 프록시(nginx Basic Auth 등)를 통해 인증을 추가하세요.

Ollama OpenAI API에서 스트리밍을 사용하는 방법은?

OpenAI 라이브러리 호출에서 stream=True를 설정하세요. Ollama는 각 토큰과 함께 서버 전송 이벤트(SSE)를 반환합니다. Python에서: for chunk in client.chat.completions.create(stream=True, ...): print(chunk.choices[0].delta.content).

Ollama가 API를 통한 함수 호출/도구 사용을 지원합니까?

네, 지원하는 모델에서 가능합니다(Llama 4 Scout, Qwen3 8B, Gemma 4 9B, Mistral Small 3.1). 레거시 모델(Llama 3.3 8B, Qwen3 7B)도 지원됩니다. OpenAI와 동일하게 API 호출에 tools=[]를 전달하면 됩니다. Ollama는 도구 호출을 파싱하고 구조화된 JSON을 반환합니다. 모든 모델이 이를 지원하는 것은 아니므로 모델 문서를 확인하세요.

MCP란 무엇이며 OpenAI 호환 API와 어떤 관계가 있습니까?

MCP(Model Context Protocol)는 AI 모델을 외부 도구 및 데이터 소스에 연결하기 위한 표준화된 프로토콜입니다. 함수 호출 위에 구축됩니다. 위 예제의 동일한 `tools=[]` 매개변수를 사용하지만 표준 서버-클라이언트 아키텍처를 추가하여 도구를 발견 가능하고 애플리케이션 간에 재사용 가능하게 합니다. Ollama는 OpenAI 호환 함수 호출 엔드포인트를 통해 MCP 스타일 도구 상호 작용을 지원합니다. 간단한 통합의 경우 이 문서의 함수 호출 예제로 충분합니다. 복잡한 다중 도구 워크플로의 경우 MCP가 더 구조화된 접근 방식을 제공합니다.

Ollama /api/generate와 /v1/chat/completions의 차이점은?

/api/generate는 Ollama의 네이티브 단일 턴 엔드포인트입니다. /v1/chat/completions는 OpenAI 호환 다중 턴 엔드포인트입니다. 모든 새 프로젝트에서는 /v1/chat/completions를 사용하세요. 대화 기록을 지원하며 OpenAI 라이브러리와 호환됩니다.

vLLM을 OpenAI 호환 API로 사용할 수 있습니까?

네. vLLM은 기본적으로 http://localhost:8000/v1에서 OpenAI 호환 서버를 실행합니다. 다음 명령으로 시작하세요: python -m vllm.entrypoints.openai.api_server --model mistralai/Mistral-7B-v0.1. Ollama와 동일한 클라이언트 코드를 사용하면 됩니다.

Node.js openai 패키지로 Ollama API를 사용하는 방법은?

openai에서 OpenAI를 가져오세요. 생성자에서 baseURL: "http://localhost:11434/v1"과 apiKey: "ollama"를 설정하세요. 그런 다음 실제 OpenAI API와 동일하게 client.chat.completions.create()를 호출하면 됩니다. 다른 변경이 필요 없습니다.

동일한 코드베이스에서 Ollama와 OpenAI를 어떻게 전환합니까?

환경 변수를 사용하세요. Ollama의 경우 USE_LOCAL=true를 설정하고(base_url http://localhost:11434/v1, api_key "ollama"), OpenAI의 경우 USE_LOCAL=false를 설정합니다. OpenAI Python 라이브러리는 생성자 인수로 base_url을 수용합니다. 프로덕션에서 USE_LOCAL=false로 설정하면 다른 코드를 변경하지 않고도 OpenAI로 전환됩니다.

LangChain과 함께 OpenAI 호환 API를 사용할 수 있습니까?

네. base_url="http://localhost:11434/v1"과 api_key="ollama"를 사용하여 ChatOpenAI를 사용하면 됩니다. 이를 통해 Ollama가 모든 LangChain 파이프라인에서 OpenAI의 드롭인 대체품이 됩니다. RAG 체인, 에이전트, 도구 모두 수정 없이 작동합니다. LangChain에는 Ollama 전용 기능을 위한 전용 ChatOllama 클래스도 있습니다.

Ollama나 LM Studio를 통해 Aider에서 로컬 모델을 사용하는 방법은?

OPENAI_API_BASE와 OPENAI_API_KEY 환경 변수(또는 이에 상응하는 CLI 플래그)를 Ollama의 경우 http://localhost:11434/v1, LM Studio의 경우 http://localhost:1234/v1로 설정하고, 키에는 임의의 문자열을 사용하면 됩니다. Aider는 자체 제공자 접두사를 통한 네이티브 Ollama 지원도 갖추고 있습니다. 현재 권장되는 방법은 Aider 문서를 확인하시기 바랍니다.

Cline이나 Roo Code에서 LM Studio나 Ollama를 통해 로컬 모델을 사용할 수 있습니까?

네. 두 VS Code 확장 프로그램 모두 설정에 OpenAI Compatible 제공자 옵션이 있습니다. Base URL에 http://localhost:11434/v1(Ollama) 또는 http://localhost:1234/v1(LM Studio), API 키에는 임의의 문자열, 그리고 정확한 모델 이름을 입력하면 됩니다. Roo Code는 Cline의 포크이며 동일한 설정 패턴을 사용합니다.

출처

Ollama. (2026). "Ollama OpenAI Compatibility." https://github.com/ollama/ollama/blob/main/docs/openai.md -- Ollama의 OpenAI 호환 REST API 엔드포인트에 대한 공식 문서.
LM Studio. (2026). "LM Studio Local Server." https://lmstudio.ai/docs/local-server -- localhost:1234의 LM Studio OpenAI 호환 로컬 서버 문서.
OpenAI. (2024). "OpenAI Python Library." https://github.com/openai/openai-python -- base_url 재정의를 통해 OpenAI와 로컬 LLM 모두에 연결하는 데 사용되는 공식 Python SDK.
vLLM Team. (2024). "vLLM OpenAI-Compatible Server." https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html -- vLLM의 OpenAI 호환 API 서버 문서(포트 8000, 프로덕션 사용).

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Download the PromptQuorum Beta →

← Back to Local LLMs

LM Studio 및 Ollama OpenAI 호환 API 문서: Python, Node.js, Aider, Cline, Roo Code (2026)

⚡ 빠른 정보

OpenAI 호환이란 무엇을 의미합니까?

Ollama의 API 엔드포인트는 무엇입니까?

Python에서 Ollama API를 사용하는 방법(OpenAI 라이브러리)?

Node.js에서 Ollama API를 사용하는 방법은?

LM Studio OpenAI 호환 서버 사용법(localhost:1234)

브라우저 JavaScript에서 Ollama API를 사용하는 방법은?

토큰별 응답 스트리밍 방법은?

로컬 모델에서 함수를 호출할 수 있습니까?

Aider, Cline, Roo Code를 로컬 모델에 연결하는 방법은?

지역별 로컬 LLM OpenAI API

로컬 LLM OpenAI API에서 자주 발생하는 실수는?

로컬 LLM API에 관한 자주 묻는 질문

Ollama를 사용하기 위해 OpenAI 코드를 수정해야 합니까?

네트워크의 다른 컴퓨터에서 API를 사용할 수 있습니까?

LM Studio에는 OpenAI 호환 API가 있습니까?

여러 모델을 동시에 호출할 수 있습니까?

API에 인증이 있습니까?

Ollama OpenAI API에서 스트리밍을 사용하는 방법은?

Ollama가 API를 통한 함수 호출/도구 사용을 지원합니까?

MCP란 무엇이며 OpenAI 호환 API와 어떤 관계가 있습니까?

Ollama /api/generate와 /v1/chat/completions의 차이점은?

vLLM을 OpenAI 호환 API로 사용할 수 있습니까?

Node.js openai 패키지로 Ollama API를 사용하는 방법은?

동일한 코드베이스에서 Ollama와 OpenAI를 어떻게 전환합니까?

LangChain과 함께 OpenAI 호환 API를 사용할 수 있습니까?

Ollama나 LM Studio를 통해 Aider에서 로컬 모델을 사용하는 방법은?

Cline이나 Roo Code에서 LM Studio나 Ollama를 통해 로컬 모델을 사용할 수 있습니까?

관련 문서

출처

A Note on Third-Party Facts