英特尔“芯”AI,赋能云边端|第七期:5000元 Ultra RAG 增强 30B 大模型, 智启企业 AI 新纪元
经过前六期的探索,YiCoreAI 平台已通过 YIAISTUDIO 的高效训练(Arc A770 驱动 YOLOv8/v11 和 Qwen-7B)、YiCONNECT 的 Kubernetes 管理,以及 YiEDGE 的 Core Ultra NPU 40ms 延迟推理,构建了强大的云边端 AI 闭环。第五期我们在 Ultra 5 125H iGPU 上部署 MedGemma 4B IT,第六期借助 Ollama 优化 Qwen3:8B。如今,第七期我们迈向新高度:5000 元 Core Ultra 5 125H 笔记本融合 RAG 技术,增强 30B 大模型,助力企业实现智能化转型。
目录
演示视频
技术突破:RAG 增强 30B 大模型
传统大模型(如 30 亿参数的 Qwen3:30B)受限于知识更新和上下文理解能力。RAG(Retrieval-Augmented Generation)技术通过外部知识库(基于 FAISS 向量检索)动态补充信息,显著提升生成质量。Core Ultra 5 125H 的 10 TOPS NPU 搭配 Arc A770 显卡,利用 IPEX LLM 优化(INT8 量化),将 30B 模型显存需求降至 15-20GB,延迟控制在 40ms 以下,完美运行于 5000 元 HP Pavilion 14 笔记本。
网站智能助手利用 RAG(Retrieval-Augmented Generation)技术,通过 Watercrawl 抓取网站内容,构建知识库。30B 大模型(如 Qwen3:30B)经 ipex-llm 优化(INT8 量化,显存降至 15-20GB),由 Ollama 驱动,Core Ultra 5 125H NPU(10 TOPS)实现 40ms 延迟推理。Dify 提供用户界面,集成实时问答功能,提升网站交互体验。

实现细节:从数据到部署
- 数据准备:Watercrawl 抓取网站数据,FAISS 构建向量库。
- 训练与优化:YiAISTUDIO 微调 30B 模型,IPEX LLM 提升效率。
- 部署与管理:YiCONNECT 分发模型,YiEDGE 在 HP Pavilion 14 上运行。
- 交互验证:Dify WebUI 支持用户提问,Gradio 辅助测试(可选)。
数据准备
WaterCrawl 部署
- 克隆 WaterCrawl 仓库
git clone https://github.com/watercrawl/watercrawl.git
cd watercrawl
- 编译和启动 Docker 容器
cd docker
cp .env.example .env
docker compose up -d
- 访问 Web UI http://localhost,如图所示

- 设置一个 API Key,为 Dify 后续使用

Dify 部署
- 克隆 Dify 仓库
git clone https://github.com/langgenius/dify.git
cd dify
- 编译和启动 Docker 容器,建议部署在另一台机器,否则需要修改 nginx 暴露端口,以免与 WaterCrawl 端口冲突
cd docker
cp .env.example .env
docker compose up -d
- 访问 Web UI http://localhost:8880,如图所示

训练与优化
模型部署
模型部署可以参考上一期内容,有详细的模型部署过程:英特尔“芯”AI,赋能云边端|第六期:使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b
在 Dify 导入已部署的 Ollama 模型

根据需要增加你需要的 Model 到 Ollama 插件下即可。
在 Dify 创建一个基于 WaterCrawl 网站扫描的知识库

点击 Run 按钮后即开始扫描目标网站。
在 Dify 创建一个基于已扫描的网站知识库的工作室

- 选择 Knowledge 为前面创建的“公司官方网站”
- 选择你所需要使用的 Model,这里选择了 qwen2.5vl-b8
- 然后,点击 Publish -> Publish Update 即可发布应用
交互验证
集成 Dify 到页面 Iframe
<iframe
src="http://192.168.123.59/chatbot/xxxxxxxxxxx"
style="width: 100%; height: 100%; min-height: 700px"
frameborder="0"
allow="microphone">
</iframe>

集成到网站 HTML 页面,即可现实内嵌。
集成 Dify 到网站弹出窗口
<script>
window.difyChatbotConfig = {
token: 'xxxxxxxxxxx',
baseUrl: 'http://192.168.123.59',
systemVariables: {
// user_id: 'YOU CAN DEFINE USER ID HERE',
// conversation_id: 'YOU CAN DEFINE CONVERSATION ID HERE, IT MUST BE A VALID UUID',
},
userVariables: {
// avatar_url: 'YOU CAN DEFINE USER AVATAR URL HERE',
// name: 'YOU CAN DEFINE USER NAME HERE',
},
}
</script>
<script
src="http://192.168.123.59/embed.min.js"
id="xxxxxxxxxxx"
defer>
</script>
<style>
#dify-chatbot-bubble-button {
background-color: #1C64F2 !important;
}
#dify-chatbot-bubble-window {
width: 24rem !important;
height: 40rem !important;
}
</style>

将以上代码集成到网站 HTML 页即可实现弹出窗口。
集成 Dify 到微信公众号
http://192.168.123.59/chatbot/xxxxxxxxxxx

将以上链接集成到微信公众号“外部URL”即可。
成果与应用
测试显示,RAG 增强后的 30B 模型准确率超 90%,功耗降低 30%,仅 5000 元成本即可实现私有化部署。应用场景包括:
- 电商:实时产品咨询。
- 企业官网:智能客服支持。 这一低成本方案增强企业网站智能化。
结语
YiCoreAI 凭借英特尔“芯”AI技术,将 5000 元笔记本升级为企业 AI 核心,RAG 增强 30B 大模型不仅提升智能化水平,更赋予企业数据自主权。让我们一起迎接 AI 驱动的数字化新时代!
早期内容
英特尔“芯”AI,赋能云边端|第六期:使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b
英特尔“芯”AI,赋能云边端|第五期:MedGemma-4B 赋能智能医疗,基于 Core Ultra 的高效部署
英特尔“芯”AI,赋能云边端|第四期:闭环赋能,助力企业和组织实现数字化和 AI 转型
英特尔“芯”AI,赋能云边端|第三期:YiCONNECT 和 YiEDGE 实现高效管理与边缘推理