跳转至

英特尔“芯”AI,赋能云边端|第七期:5000元 Ultra RAG 增强 30B 大模型, 智启企业 AI 新纪元

经过前六期的探索,YiCoreAI 平台已通过 YIAISTUDIO 的高效训练(Arc A770 驱动 YOLOv8/v11 和 Qwen-7B)、YiCONNECT 的 Kubernetes 管理,以及 YiEDGE 的 Core Ultra NPU 40ms 延迟推理,构建了强大的云边端 AI 闭环。第五期我们在 Ultra 5 125H iGPU 上部署 MedGemma 4B IT,第六期借助 Ollama 优化 Qwen3:8B。如今,第七期我们迈向新高度:5000 元 Core Ultra 5 125H 笔记本融合 RAG 技术,增强 30B 大模型,助力企业实现智能化转型。

目录

演示视频

技术突破:RAG 增强 30B 大模型

传统大模型(如 30 亿参数的 Qwen3:30B)受限于知识更新和上下文理解能力。RAG(Retrieval-Augmented Generation)技术通过外部知识库(基于 FAISS 向量检索)动态补充信息,显著提升生成质量。Core Ultra 5 125H 的 10 TOPS NPU 搭配 Arc A770 显卡,利用 IPEX LLM 优化(INT8 量化),将 30B 模型显存需求降至 15-20GB,延迟控制在 40ms 以下,完美运行于 5000 元 HP Pavilion 14 笔记本。

网站智能助手利用 RAG(Retrieval-Augmented Generation)技术,通过 Watercrawl 抓取网站内容,构建知识库。30B 大模型(如 Qwen3:30B)经 ipex-llm 优化(INT8 量化,显存降至 15-20GB),由 Ollama 驱动,Core Ultra 5 125H NPU(10 TOPS)实现 40ms 延迟推理。Dify 提供用户界面,集成实时问答功能,提升网站交互体验。

HP
HP PAVILION 14: Ultra 5 125H/32GB/1TB

实现细节:从数据到部署

  • 数据准备:Watercrawl 抓取网站数据,FAISS 构建向量库。
  • 训练与优化:YiAISTUDIO 微调 30B 模型,IPEX LLM 提升效率。
  • 部署与管理:YiCONNECT 分发模型,YiEDGE 在 HP Pavilion 14 上运行。
  • 交互验证:Dify WebUI 支持用户提问,Gradio 辅助测试(可选)。

数据准备

WaterCrawl 部署

  • 克隆 WaterCrawl 仓库
git clone https://github.com/watercrawl/watercrawl.git
cd watercrawl
  • 编译和启动 Docker 容器
cd docker
cp .env.example .env
docker compose up -d
  • 访问 Web UI http://localhost,如图所示
WaterCrawl
WaterCrawl 登陆
  • 设置一个 API Key,为 Dify 后续使用
WaterCrawl API Key
WaterCrawl API Key

Dify 部署

  • 克隆 Dify 仓库
git clone https://github.com/langgenius/dify.git
cd dify
  • 编译和启动 Docker 容器,建议部署在另一台机器,否则需要修改 nginx 暴露端口,以免与 WaterCrawl 端口冲突
cd docker
cp .env.example .env
docker compose up -d
  • 访问 Web UI http://localhost:8880,如图所示
Dify
Dify 登陆

训练与优化

模型部署

模型部署可以参考上一期内容,有详细的模型部署过程:英特尔“芯”AI,赋能云边端|第六期:使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b

在 Dify 导入已部署的 Ollama 模型

Dify Plugin
Dify Plugin Ollama

根据需要增加你需要的 Model 到 Ollama 插件下即可。

在 Dify 创建一个基于 WaterCrawl 网站扫描的知识库

Dify Knowledge
Dify Knowledge

点击 Run 按钮后即开始扫描目标网站。

在 Dify 创建一个基于已扫描的网站知识库的工作室

Dify Studio
Dify Studio
  • 选择 Knowledge 为前面创建的“公司官方网站”
  • 选择你所需要使用的 Model,这里选择了 qwen2.5vl-b8
  • 然后,点击 Publish -> Publish Update 即可发布应用

交互验证

集成 Dify 到页面 Iframe

<iframe
 src="http://192.168.123.59/chatbot/xxxxxxxxxxx"
 style="width: 100%; height: 100%; min-height: 700px"
 frameborder="0"
 allow="microphone">
</iframe>
Dify Chatbot in web iframe
Dify Chatbot 聊天助手内嵌网页

集成到网站 HTML 页面,即可现实内嵌。

集成 Dify 到网站弹出窗口

<script>
 window.difyChatbotConfig = {
  token: 'xxxxxxxxxxx',
  baseUrl: 'http://192.168.123.59',
  systemVariables: {
    // user_id: 'YOU CAN DEFINE USER ID HERE',
    // conversation_id: 'YOU CAN DEFINE CONVERSATION ID HERE, IT MUST BE A VALID UUID',
  },
  userVariables: {
    // avatar_url: 'YOU CAN DEFINE USER AVATAR URL HERE',
    // name: 'YOU CAN DEFINE USER NAME HERE',
  },
 }
</script>
<script
 src="http://192.168.123.59/embed.min.js"
 id="xxxxxxxxxxx"
 defer>
</script>
<style>
  #dify-chatbot-bubble-button {
    background-color: #1C64F2 !important;
  }
  #dify-chatbot-bubble-window {
    width: 24rem !important;
    height: 40rem !important;
  }
</style>
Dify Chatbot in web
Dify Chatbot 聊天助手网页弹出窗口

将以上代码集成到网站 HTML 页即可实现弹出窗口。

集成 Dify 到微信公众号

http://192.168.123.59/chatbot/xxxxxxxxxxx
Dify Chatbot in WeChat
Dify Chatbot 聊天助手微信公众号

将以上链接集成到微信公众号“外部URL”即可。

成果与应用

测试显示,RAG 增强后的 30B 模型准确率超 90%,功耗降低 30%,仅 5000 元成本即可实现私有化部署。应用场景包括:

  • 电商:实时产品咨询。
  • 企业官网:智能客服支持。 这一低成本方案增强企业网站智能化。

结语

YiCoreAI 凭借英特尔“芯”AI技术,将 5000 元笔记本升级为企业 AI 核心,RAG 增强 30B 大模型不仅提升智能化水平,更赋予企业数据自主权。让我们一起迎接 AI 驱动的数字化新时代!

早期内容

英特尔“芯”AI,赋能云边端|第六期:使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b

英特尔“芯”AI,赋能云边端|第五期:MedGemma-4B 赋能智能医疗,基于 Core Ultra 的高效部署

英特尔“芯”AI,赋能云边端|第四期:闭环赋能,助力企业和组织实现数字化和 AI 转型

英特尔“芯”AI,赋能云边端|第三期:YiCONNECT 和 YiEDGE 实现高效管理与边缘推理

英特尔“芯”AI,赋能云边端|第二期:用英特尔 Arc 系列显卡高效训练 YOLO 和 Qwen-7B

英特尔“芯”AI,赋能云边端|第一期:开启 AI 新时代的云边端闭环