如何本地搭建部署 deepseek大模型 + RAG + Qdrant向量数据库
快速搭建属于你的AI大模型
安装ollama ,拉取deepseek-R1
下载 Ollama:访问官网(https://ollama.com/),按系统下载安装。
拉取 DeepSeek 模型:DeepSeek-R1 有多种参数版本(1.5B 到 671B),这里用 7B 版本,适合普通设备:
1
ollama pull deepseek-r1:7b
安装依赖:LangChain 和嵌入模型
LangChain 帮你实现 RAG,nomic-embed-text 用来生成向量嵌入。安装:
1 | pip install langchain langchain-community ollama qdrant-client |
拉取嵌入模型
1 | ollama pull nomic-embed-text |
部署 Qdrant 向量数据库
Qdrant 是轻量级的向量数据库,适合本地跑。Docker 部署最方便:
- 拉取 Qdrant 镜像:
1
docker pull qdrant/qdrant
- 启动 Qdrant:Qdrant 会在本地 6333 端口跑起来。
1
docker run -d -p 6333:6333 qdrant/qdrant
构建 RAG 管道
RAG 的核心是:加载文档 → 生成嵌入 → 存入向量数据库 → 查询时检索相关内容 → 喂给 DeepSeek 生成答案。
(1)加载和处理文档
假设你有个 PDF 文档(比如 my_doc.pdf
),用 LangChain 加载并切分:
1 | from langchain_community.document_loaders import PyMuPDFLoader |
(2)生成嵌入并存入 Qdrant
用 nomic-embed-text 生成嵌入,存到 Qdrant:
1 | from langchain_community.embeddings import OllamaEmbeddings |
(3)设置 DeepSeek 模型和 RAG 链
用 LangChain 连接 DeepSeek 和向量数据库:
1 | from langchain_community.llms import Ollama |
测试你的 RAG 系统
跑个查询试试:
1 | query = "文档里提到什么关键技术?" |
如果文档里有相关内容,DeepSeek 会基于检索结果生成精准答案,否则会回复“不知道”。
优化建议:让系统更强
- 调整分片大小:
chunk_size
和chunk_overlap
调小(比如 300 和 30),提高检索精度。 - 模型选择:硬件强的话,试试 14B 或 32B 版本,效果更好。
- 向量数据库优化:用 HNSW 索引提速(Qdrant 默认支持)。
- 压力测试:用 Locust 模拟多用户查询,找瓶颈。
挑战与未来:本地部署的前景
本地部署虽然隐私安全,但算力需求和维护成本不低。2025年,随着硬件升级和模型优化(比如 DeepSeek 的蒸馏技术),本地 RAG 系统会更普及。未来,Serverless 和边缘计算可能让部署更简单,拭目以待!
全球最大软件分享群
最新福利机场大全分享
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 下载世界!