Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM进阶/30分钟在本地PDF上构建RAG系统(Ollama + AnythingLLM)
RAG & Document Chat

30分钟在本地PDF上构建RAG系统(Ollama + AnythingLLM)

·约12分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

安装 Ollama,拉取 Llama 3.3 8B,安装 AnythingLLM,连接至 Ollama,将嵌入模型切换为 nomic-embed-text,将 PDF 拖入工作区并提问。在16 GB内存笔记本上,整个流程耗时30分钟——其中大部分时间是模型下载。

在一台16 GB内存笔记本上搭建可用个人RAG系统的最快路径完整指南。技术栈:Ollama、Llama 3.3 8B、AnythingLLM、nomic-embed-text。总耗时:从空机器到与自己的PDF对话,30分钟完成。

关键要点

  • 技术栈: Ollama 运行 LLM,AnythingLLM 提供界面和向量存储,Llama 3.3 8B Q4_K_M 负责回答,nomic-embed-text-v1.5 负责检索。
  • 耗时: 全程30分钟。最长单步是模型下载(50 Mbps网速约8分钟)。
  • 硬件: 16 GB内存是实际最低门槛。8 GB内存仅在使用 Phi-4 Mini 且文档量较小时可用——参见备选模型说明。
  • 隐私: 安装完成后,任何数据不离开本机。PDF、向量、提示词和输出结果全部本地保存。
  • 无需编码: 除两条 Ollama 命令外,零 Python、零终端操作。AnythingLLM 是带拖拽文档导入功能的桌面应用。
  • 默认嵌入器存在问题: AnythingLLM 内置了一个极小的默认嵌入器。在第4步切换为 nomic-embed-text-v1.5——检索质量会有明显提升。
  • 默认分块大小对PDF同样不合适: 1000 token分块配合200 token重叠比默认的512/0设置效果更好。在第7步进行调整。

你将构建什么

一个独立的桌面RAG系统:一个可拖入PDF并提问的对话窗口。 四个开源组件,全部免费,全部运行在你的笔记本上:

📍 简单一句话

本地RAG系统由四个部分组成——运行时(Ollama)、回答模型(Llama 3.3 8B)、界面加向量存储(AnythingLLM)和嵌入模型(nomic-embed-text-v1.5)——在同一台机器上组合使用,无需任何云端调用。

💬 简单来说

拖入PDF,提出问题,获得带引用来源的有据可查回答——完全离线。四个组件各司其职:Ollama运行模型,Llama 3.3 8B生成回答,AnythingLLM处理分块和向量,nomic-embed-text-v1.5将文本转化为支持检索的向量。总安装时间:约30分钟;总成本:0元。

  • Ollama — 本地LLM运行时。管理模型文件,在localhost:11434暴露OpenAI兼容API。提供回答模型。
  • Llama 3.3 8B Instruct(Q4_K_M) — Meta的8B参数对话模型,量化后约占5 GB内存。在2026年的文档问答任务中回答质量良好。
  • AnythingLLM Desktop — 界面 + 向量存储 + RAG编排层。内置LanceDB,原生解析PDF/DOCX/TXT/MD,将 Ollama 作为LLM提供者。
  • nomic-embed-text-v1.5 — 嵌入模型。768维向量,通过 Ollama 在现代CPU上以约600 chunks/秒运行。替换 AnythingLLM 性能不足的默认嵌入器。
本地 RAG 技术栈:Ollama(运行时,localhost:11434)、Llama 3.3 8B Q4_K_M(~4.9 GB,回答模型)、AnythingLLM Desktop(界面 + LanceDB 向量存储)和 nomic-embed-text-v1.5(~280 MB 嵌入器)。数据流:PDF → AnythingLLM → nomic-embed-text → LanceDB → Llama 3.3 8B → 回答。
本地 RAG 技术栈:Ollama(运行时,localhost:11434)、Llama 3.3 8B Q4_K_M(~4.9 GB,回答模型)、AnythingLLM Desktop(界面 + LanceDB 向量存储)和 nomic-embed-text-v1.5(~280 MB 嵌入器)。数据流:PDF → AnythingLLM → nomic-embed-text → LanceDB → Llama 3.3 8B → 回答。

📌Note: AnythingLLM 同样内置了一个默认LLM和一个默认嵌入器。两者都故意设计得很小,以便在低配硬件上快速启动。由于检索质量是RAG系统的核心,我们在第4步和第6步将两者都替换掉。

开始前的准备

一台16 GB内存、20 GB可用磁盘空间、具备网络连接的笔记本,以及30分钟时间。 操作系统可以是macOS 12+、Windows 10/11或任意现代Linux桌面发行版。

  • 内存: 16 GB是 Llama 3.3 8B Q4 + AnythingLLM + 日常桌面应用同时运行的实际最低门槛。8 GB内存可使用 Phi-4 Mini Q4 替代——参见第2步备选方案。
  • 磁盘: 20 GB可用空间。Llama 3.3 8B Q4_K_M 约5 GB,嵌入模型约280 MB,AnythingLLM 约600 MB,向量化结果还需预留空间(每100页PDF约10–30 MB)。
  • 网络: 模型下载至少需要约50 Mbps。25 Mbps时同一步骤约需16分钟;教程其余部分不受影响。
  • 权限: AnythingLLM无需管理员/root权限。Ollama在macOS/Linux上安装至/usr/local/bin(仅询问一次密码),在Windows上安装至%LOCALAPPDATA%(无需管理员)。
  • 准备文档: 准备5–20个PDF开始测试。数量更多也可以,但小集合更便于快速验证检索质量。
系统要求:16 GB 内存(Llama 3.3 8B Q4 + AnythingLLM 的实际门槛)、20 GB 可用磁盘、模型下载需要 50 Mbps。支持 macOS 12+、Windows 10/11 或 Linux。AnythingLLM 无需管理员权限。
系统要求:16 GB 内存(Llama 3.3 8B Q4 + AnythingLLM 的实际门槛)、20 GB 可用磁盘、模型下载需要 50 Mbps。支持 macOS 12+、Windows 10/11 或 Linux。AnythingLLM 无需管理员权限。

第1步:安装 Ollama(3分钟)

**从 ollama.com/download 下载对应操作系统的 Ollama 安装包并运行。安装程序会将ollama命令添加至PATH并启动后台服务。** 无需进行任何配置选择。

  • macOS: 下载.dmg,将 Ollama 拖入"应用程序",首次启动以安装CLI助手。服务运行时菜单栏会显示羊驼图标。
  • Windows: 下载.exe,运行后接受默认设置。安装后 Ollama 以后台服务形式运行——无需单独启动。
  • Linux: 一行安装命令:curl -fsSL https://ollama.com/install.sh | sh。脚本会注册systemd单元;执行sudo systemctl start ollama启动。
  • 验证: 打开终端,运行ollama --version,应看到版本号字符串。若提示命令未找到,请重启终端以加载更新后的PATH。
bash
ollama --version
# ollama version is 0.5.x  (any 0.5+ build works for this tutorial)

⚠️Warning: ollama --version正常但后续步骤提示"localhost:11434连接被拒绝",说明后台服务未自动启动。macOS:从"应用程序"启动该应用。Linux:sudo systemctl start ollama。Windows:点击 Ollama 托盘图标。

第2步:拉取 Llama 3.3 8B(8分钟)

**在终端运行ollama pull llama3.3:8b-instruct-q4_K_M。此命令下载量化后的4.9 GB GGUF文件并注册至 Ollama。** 在典型家庭网络上,这一步占据30分钟总时长的大部分。

  • 下载大小: 约4.9 GB(Q4_K_M量化)。50 Mbps约需8分钟;100 Mbps约需4分钟;25 Mbps约需16分钟。
  • 查看进度: Ollama会打印进度百分比和速率。下载中断后可重新运行同一命令——Ollama会从上次中断处续传。
  • 冒烟测试: 下载完成后,运行ollama run llama3.3:8b-instruct-q4_K_M,询问"2+2等于多少?",确认得到合理回答。输入/bye退出。
  • 低内存备选方案: 若内存为8 GB而非16 GB,运行ollama pull phi3:mini(Phi-4 Mini,约2.4 GB)。在第3步中使用该模型名称替代。长文档质量会有所下降,但系统可正常运行。
bash
# 推荐用于16 GB内存
ollama pull llama3.3:8b-instruct-q4_K_M

# 8 GB内存备选方案
ollama pull phi3:mini

# 快速冒烟测试(输入/bye退出)
ollama run llama3.3:8b-instruct-q4_K_M
按内存选择模型: Llama 3.3 8B Q4_K_M (~4.9GB, 16GB内存, 50Mbps约8分钟) 推荐; Phi-4 Mini Q4 (~2.4GB, 8GB内存) 低内存方案; Mistral Small Q4_K_M (~4.1GB, 16GB内存) 备选。
按内存选择模型: Llama 3.3 8B Q4_K_M (~4.9GB, 16GB内存, 50Mbps约8分钟) 推荐; Phi-4 Mini Q4 (~2.4GB, 8GB内存) 低内存方案; Mistral Small Q4_K_M (~4.1GB, 16GB内存) 备选。

💡Tip: 已安装了其他 Ollama 模型?ollama list可查看所有已安装模型。你可以同时保留多个模型,并在 AnythingLLM 工作区设置中随时切换。

第3步:安装 AnythingLLM Desktop(4分钟)

从 useanything.com(或 anythingllm.com)下载 AnythingLLM Desktop 并运行安装程序。启动应用后跳过"创建云账户"提示——下一个界面会提供本地模式选项。 安装过程无需人工干预。

  • macOS: 下载.dmg,将 AnythingLLM 拖入"应用程序",启动。若 macOS 提示确认开发者身份,在"系统设置→隐私与安全性"中点击"仍要打开"。
  • Windows: 下载.exe安装包。Windows SmartScreen 可能提示"不常见下载"——点击"更多信息"→"仍要运行"。应用安装至%LOCALAPPDATA%\anythingllm-desktop(无需管理员权限)。
  • Linux: 下载.AppImage,添加可执行权限(chmod +x AnythingLLMDesktop.AppImage),双击运行。
  • 首次运行选择: AnythingLLM 提供云端工作区或本地专用设置两个选项。选择本地设置。这是使整个系统保持离线的关键选择。
  • 创建工作区: 提示时,为第一个工作区起一个有意义的名称(如"研究论文"、"合同文件"、"个人笔记")。每个工作区有独立的文档集合和向量存储。
AnythingLLM桌面版4步安装: 从anythingllm.com下载(~600MB) → 无需管理员权限安装 → 启动并跳过云端提示 → 选择"Local Setup"使所有数据完全离线。
AnythingLLM桌面版4步安装: 从anythingllm.com下载(~600MB) → 无需管理员权限安装 → 启动并跳过云端提示 → 选择"Local Setup"使所有数据完全离线。

⚠️Warning: AnythingLLM 的默认LLM是仅用于欢迎演示的极小内置模型。下一步我们将把它指向你本地的 Ollama。请勿使用默认模型进行实际查询——回答质量会极差。

第4步:连接 AnythingLLM 至 Ollama 并切换嵌入模型(3分钟)

**打开 AnythingLLM 设置→LLM偏好。选择"Ollama"作为提供者,URL设为http://127.0.0.1:11434,从模型下拉列表选择llama3.3:8b-instruct-q4_K_M,保存。然后进入嵌入偏好,通过 Ollama 将嵌入器从默认切换为nomic-embed-text。**

  • LLM偏好面板: 提供者=Ollama,端点=http://127.0.0.1:11434,模型=llama3.3:8b-instruct-q4_K_M。点击"保存更改",绿色对勾表示连接成功。
  • 嵌入偏好面板: 默认为"AnythingLLM原生嵌入器"——一个极小的内置模型。先在终端运行ollama pull nomic-embed-text(约280 MB),再在面板中刷新模型列表并选择nomic-embed-text:latest。点击保存。
  • 重新嵌入提示: 若之前已在旧嵌入器下添加了文档,AnythingLLM 会提示重新嵌入。全新安装时尚无文档,不会出现此提示。
  • 向量数据库: 保持默认(LanceDB)。它是本地、基于文件的,无需任何配置。仅在明确需要 PGVector 或 Qdrant 时才切换。
bash
# 打开嵌入偏好面板前,先在终端运行此命令
ollama pull nomic-embed-text
第4步的两个面板:LLM偏好(提供者 = Ollama,端点 = http://127.0.0.1:11434,模型 = llama3.3:8b-instruct-q4_K_M),然后嵌入偏好(先拉取 nomic-embed-text,再通过 Ollama 选择 nomic-embed-text:latest)。
第4步的两个面板:LLM偏好(提供者 = Ollama,端点 = http://127.0.0.1:11434,模型 = llama3.3:8b-instruct-q4_K_M),然后嵌入偏好(先拉取 nomic-embed-text,再通过 Ollama 选择 nomic-embed-text:latest)。

💡Tip: 为何选择 nomic-embed-text-v1.5?在2026年5月,它在所有500 MB以下模型中位列MTEB检索排行榜前五,在现代CPU上以400–800 chunks/秒运行,在Apple Silicon上达2000+ chunks/秒,并采用Apache 2.0许可证。它是几乎所有本地RAG技术栈的首选升级方案——参见嵌入模型对比了解其他选项。

第5步:上传第一批 PDF(5分钟)

打开工作区,点击"上传文档",拖入5–20个PDF。AnythingLLM 会提取文本、分块(默认512 token,重叠0),通过 Ollama 对每个分块进行向量化,并将向量存储至LanceDB。 进度条显示已解析页数和已向量化分块数。

  • 支持格式: PDF(基于文本)、DOCX、TXT、MD、EPUB,以及URL抓取。扫描图片PDF需要先进行OCR——参见故障排查章节。
  • 速度: Ollama预热后,现代CPU约400–800 chunks/秒,Apple Silicon约2000+ chunks/秒。20个PDF(每个约50页,共约3000个分块)在现代CPU上约需5–8秒向量化,Apple Silicon上约1–2秒,加上解析时间。上传、解析并向量化20个PDF共约需5分钟。
  • 向量化过程中的内存: Ollama在首次请求时加载嵌入模型(约280 MB)并保持缓存。后续向量化会复用缓存。
  • "移入工作区": 上传后,AnythingLLM 将文档放置在"等待区"。必须明确点击"移入工作区"→"保存并向量化"才能使其可查询。这个两步流程是故意设计的——允许你在触发向量化之前预览文档。
PDF上传到查询5步流程: 上传PDF → 解析文本层 → 分块(1000/200) → nomic-embed-text/Ollama向量化 → LanceDB存储查询。速度: 400–800块/秒(CPU),2000+(Apple Silicon)。
PDF上传到查询5步流程: 上传PDF → 解析文本层 → 分块(1000/200) → nomic-embed-text/Ollama向量化 → LanceDB存储查询。速度: 400–800块/秒(CPU),2000+(Apple Silicon)。

⚠️Warning: 旧版OCR扫描的PDF通常包含损坏或空白的文本层——肉眼看起来正常,但 AnythingLLM 提取的是"[image]"或空字符串。上传前,用文本编辑器打开PDF(或运行pdftotext file.pdf -,来自poppler-utils)确认文本层存在。

第6步:测试查询(5分钟)

在工作区对话框输入问题。AnythingLLM 对问题进行向量化,从LanceDB检索排名前N的分块,用这些分块作为上下文构建提示词,发送至 Ollama,并展示回答。 在16 GB内存笔记本上,每次查询延迟约3–10秒。

  • 先测试事实召回查询: "PDF中[某个具体术语]是什么意思?"——测试检索的有效性。回答应引用PDF并准确摘录相关文本。
  • 再测试综合查询: "总结[作者/文档标题]的主要论点。"——测试模型整合多个分块的能力。
  • 最后测试跨文档查询(仅在你的PDF包含可比较内容时):"比较[文档A][文档B][主题]的处理方式。"——测试跨文档检索能力。
  • 检查引用来源: AnythingLLM 在每条回答下方显示来源分块。点击以验证模型是否基于正确段落作答。若引用内容无关,说明检索存在问题——参见第7步。

第7步:调整分块大小(2分钟)

打开工作区设置→向量数据库。将分块大小从512改为1000,重叠从0改为200。点击保存,然后重新向量化文档(界面会提示)。 这是 AnythingLLM 中提升检索质量最关键的单一参数调整。

  • 为何用1000/200而非512/0: PDF段落和章节通常无法整齐地放入512个token。200 token的重叠确保跨越分块边界的句子在至少一个相邻分块中完整出现,从而被检索命中。
  • 重新向量化耗时: 20个PDF / 3000个分块约需5秒重新向量化。更大的集合耗时成比例增加。分块存储会被覆盖而非追加。
  • Top-K检索: 默认Top-K为4(最佳匹配的4个分块作为上下文)。若回答感觉依据不足,调高至6–8;若模型被噪声分块干扰,调低至2–3。
  • 提示词模板: AnythingLLM 在工作区→对话设置→提示词下提供系统提示词。默认即可;仅在出现特定失败模式时才调整。
默认 vs 推荐分块参数:默认 512/0/Top-K 4 导致句子在分块边界断裂。推荐 1000 tokens / 200 重叠 / Top-K 4–6 在重叠窗口中捕获边界句子。20个PDF重新向量化约需5秒。
默认 vs 推荐分块参数:默认 512/0/Top-K 4 导致句子在分块边界断裂。推荐 1000 tokens / 200 重叠 / Top-K 4–6 在重叠窗口中捕获边界句子。20个PDF重新向量化约需5秒。

💡Tip: 实证调整优于理论推断:在分块大小变更前后,用同一组5条测试查询进行对比。若1000/200的检索效果更差,你的文档可能非常短(单页备忘录、代码文档注释)——改为尝试256/64。

回答实际应该是什么样的?

一个调校良好的本地RAG系统对事实召回问题会逐字引用来源,对综合问题会整合多个分块,并引用所用分块。 以下是研究论文工作区的三类示例查询及健康系统的预期回答:

📍 简单一句话

健康的本地RAG回答对事实召回问题会逐字引用来源分块,对摘要问题会跨分块综合,并引用所用的具体分块ID——没有引用的泛泛回答说明检索存在问题,而非模型问题。

💬 简单来说

如果回答是"研究人员通常使用100-500名参与者"而非"Smith等人使用了287名参与者(方法部分,第4页)",说明检索已失效,模型在依靠训练数据作答。先修复检索(分块大小、嵌入器、相似度阈值),再考虑更换回答模型。

查询类型示例健康回答模式故障模式
事实召回Smith等人2024年的样本量是多少?直接引用方法章节原文 + 分块来源引用泛泛作答("研究人员通常使用100–500名参与者"),无原文引用
综合总结这篇论文的主要贡献。从摘要和结论分块提取的3–5句话只是复述标题或引用摘要中的一句话
跨文档Smith和Jones在分块重叠问题上有何分歧?引用两篇论文的内容并明确标注来源只引用一篇论文,或捏造一个分块中不存在的分歧
3种RAG查询类型: 事实检索(直接引用+来源=正常)、综合归纳(摘要+结论3–5句=正常)、跨文档(两篇论文引用+明确来源=正常)。绿色=正常,红色=检索故障 — 先修复检索再改模型。
3种RAG查询类型: 事实检索(直接引用+来源=正常)、综合归纳(摘要+结论3–5句=正常)、跨文档(两篇论文引用+明确来源=正常)。绿色=正常,红色=检索故障 — 先修复检索再改模型。

💡Tip: 每次调整检索配置后,用这三类查询模式作为测试集。若事实召回仍然失败但综合可以,说明分块粒度太粗。若综合失败但事实召回正常,说明Top-k太低。失败的模式告诉你该调哪个参数。

出现问题时:六种常见故障模式及解决方法

大多数故障属于以下六类之一。根据症状匹配对应行,按解决方法操作。

症状可能原因修复方法
AnythingLLM 显示"无法连接到 Ollama"Ollama 服务未运行,或端点设置错误运行ollama serve(或重启应用/服务)。确认端点为http://127.0.0.1:11434,Windows上localhost:11434别名有时失效。
模型拉取卡在0%或99%CDN边缘节点问题或磁盘已满用Ctrl+C取消,运行df -h确认磁盘空间,再重新运行同一ollama pull命令——Ollama会从上次中断字节处续传。
向量化步骤看起来卡住了Ollama 正在首次加载嵌入模型等待30–60秒。首次模型加载根据磁盘速度需10–40秒。后续向量化会很快。
检索返回与查询无关的分块仍在使用默认512/0分块 + 弱默认嵌入器确认第4步(nomic-embed-text)和第7步(1000/200分块)均已应用。重新向量化工作区。
回答简短、泛泛,或拒绝基于来源作答仍在使用错误的LLM(极小默认模型)或上下文太少确认LLM偏好显示的是llama3.3:8b-instruct-q4_K_M。将Top-K从4调高至6。
扫描图片PDF上传成功但产生空分块PDF没有文本层——纯光栅图像先对PDF进行OCR。macOS:ocrmypdf input.pdf output.pdf。Linux/Windows:安装Tesseract + ocrmypdf。然后重新上传OCR后的文件。
六种故障模式:连接被拒绝(运行 ollama serve)、拉取卡住(Ctrl+C → df -h → 重试)、向量化挂起(等待30–60秒)、检索返回无关分块(应用第4步和第7步)、回答简短泛泛(设置 llama3.3:8b-instruct-q4_K_M,调高 Top-K)、扫描图片PDF产生空分块(先运行 ocrmypdf)。
六种故障模式:连接被拒绝(运行 ollama serve)、拉取卡住(Ctrl+C → df -h → 重试)、向量化挂起(等待30–60秒)、检索返回无关分块(应用第4步和第7步)、回答简短泛泛(设置 llama3.3:8b-instruct-q4_K_M,调高 Top-K)、扫描图片PDF产生空分块(先运行 ocrmypdf)。

常见问题

Ollama 安装失败怎么办?

macOS上最常见的问题是Gatekeeper阻止未签名的助手程序——打开"系统设置→隐私与安全性",点击"仍要允许"。Windows上Defender SmartScreen可能隔离安装程序;右键→属性→解除锁定。Linux上install脚本需要sudo写入systemd单元;若sudo不可用,从github.com/ollama/ollama/releases下载静态二进制文件并手动添加至PATH。

为什么向量化步骤这么慢?

会话首次向量化较慢,因为 Ollama 需要将嵌入模型懒加载至内存(根据磁盘速度需10–40秒)。之后向量化在现代CPU上以400–800 chunks/秒运行,Apple Silicon上达2000+ chunks/秒。若持续吞吐量低于100 chunks/秒,模型可能在磁盘交换上运行——关闭其他应用释放内存后重试。

一次可以上传多少个PDF?

AnythingLLM 支持单次拖拽上传数百个文件。实际限制在于解析步骤的内存峰值:100个中等PDF(每个50页)约需1 GB峰值内存。向量化完成后,磁盘向量存储很小(每100页PDF约10–30 MB)。1000+ PDF请参见专项指南本地与1000个PDF对话

能处理密码保护的PDF吗?

AnythingLLM 无法直接解密密码保护的PDF。请先用qpdf --password=你的密码 --decrypt input.pdf output.pdf解密(qpdf免费,三大操作系统均可用),然后上传未加密的输出文件。若你的安全需求要求如此,向量化完成后可删除未加密副本——向量本身不可被人类阅读。

检索返回错误分块怎么办?

按影响程度依次调整三个参数:将默认嵌入器切换为nomic-embed-text(第4步),将分块从512/0改为1000/200并重新向量化(第7步),在工作区设置中将Top-K从4调高至6。若三项都调整后检索仍然错误,文档可能需要预处理——去除页眉页脚、规范化空白字符,或将超长PDF按章节拆分。

应该使用 Llama 3.3 8B 以外的模型吗?

Llama 3.3 8B Q4_K_M 是2026年16 GB系统上质量与内存比的最佳选择。8 GB内存使用 Phi-4 Mini Q4_K_M(约2.4 GB)。24 GB+可尝试 Qwen 3 14B Q4,长文档综合能力明显更强。多语言工作负载下,Mistral Nemo 12B 处理非英语内容优于 Llama 3.3。

以后如何更新模型?

再次运行ollama pull llama3.3:8b-instruct-q4_K_M获取最新版本,然后重启 AnythingLLM 使其重新检测模型版本。若要完全切换到其他模型,运行ollama pull <新模型>,再在 AnythingLLM 设置中更改LLM偏好下拉选项——无需重新向量化,因为向量只依赖嵌入器而非回答模型。

可以迁移到另一台电脑吗?

可以。Ollama 模型存储在~/.ollama/models(macOS/Linux)或%USERPROFILE%\.ollama\models(Windows)——复制该文件夹。AnythingLLM 工作区存储在~/.anythingllm/storage——同样复制。在新机器上安装 Ollama 和 AnythingLLM Desktop,然后将复制的文件夹放置到对应位置。工作区和向量化结果会完全还原。

如果我的PDF是扫描图片怎么办?

不能直接处理——AnythingLLM 可以提取文本但无法对图像进行OCR。请先用ocrmypdf input.pdf output.pdf预处理扫描PDF(跨平台,MIT许可证,使用Tesseract)。Apple Silicon上ocrmypdf -l chi_sim+eng支持包括简体中文在内的70+种语言。OCR后,输出PDF同时包含原始图像和可检索文本层,AnythingLLM 可正确提取文本。

如何备份我的文档数据库?

AnythingLLM 将所有内容存储在~/.anythingllm/storage(macOS/Linux)或%LOCALAPPDATA%\anythingllm-desktop\storage(Windows)下。将该文件夹打包(tar/zip)并复制至备份存储设备。文件夹包含原始文档、已解析分块、向量索引和对话历史。还原只需复制回来后重启——无需特殊导入流程。

← 返回 本地LLM进阶