gavin/map-client-vue

Fork 0

Files

douboer 4f5eea604e update at 2025-10-14 21:52:11

2025-10-14 21:52:11 +08:00

7.7 KiB

Raw Blame History

🎉 流式优化完成 - 性能报告

优化时间

2025年10月14日

核心成果

✅ 成功启用真流式API

从假流式(先等待完整响应再模拟打字) → 真流式(实时接收并输出)

📊 性能对比

版本1: 初始状态(假流式,未优化)

⏱️ 网络请求耗时: 9,036 ms  (等待完整响应)
⏱️ 模拟流式输出耗时: 1,254 ms  (27块 × 46ms)
⏱️ 总耗时: 10,290 ms

问题:

❌ 必须等待9秒才能看到第一个字
❌ 模拟打字效果很假(每块延迟30ms)
❌ 总体体验差

版本2: 优化模拟参数

⏱️ 网络请求耗时: 9,660 ms
⏱️ 模拟流式输出耗时: 521 ms  (11块 × 47ms)
⏱️ 总耗时: 10,181 ms

改进:

✅ 模拟打字速度提升 2.4倍
⚠️ 但首字延迟仍然9秒+

版本3: 真流式API (当前)

🚀 [sendChatRequestStream] === 进入流式请求方式 ===
🌊 [makeChatRequestStream] === 开始读取流数据 ===
⚡ [callModelStream] 首字延迟: 5,449 ms
⏱️ [makeChatRequestStream] 接收块数: 110
⏱️ [makeChatRequestStream] 总字符数: 124
⏱️ [callModelStream] 真流式总耗时: 6,867 ms

最终效果:

✅ 首字延迟: 5.4秒 (提升 43%)
✅ 总耗时: 6.9秒 (提升 37%)
✅ 真实的流式体验
✅ 无人工延迟

性能提升总结

指标	V1(初始)	V2(优化参数)	V3(真流式)	总提升
首字延迟	9,036ms	9,660ms	5,449ms	40% ⚡
总耗时	10,290ms	10,181ms	6,867ms	33% 🚀
流畅度	假	假	真	质的飞跃 ✨

技术实现细节

1. 流式请求 (`sendChatRequestStream`)

// 启用流式
body = {
  model,
  messages,
  stream: true  // ← 关键参数
}

2. SSE解析 (`makeChatRequestStream`)

// 读取 Server-Sent Events
const reader = response.body?.getReader()
const decoder = new TextDecoder()

while (true) {
  const { done, value } = await reader.read()
  if (done) break
  
  buffer += decoder.decode(value, { stream: true })
  const lines = buffer.split('\n')
  
  for (const line of lines) {
    if (line.startsWith('data: ')) {
      const data = JSON.parse(line.slice(6))
      const content = data.choices?.[0]?.delta?.content
      if (content) {
        onChunk(content)  // 实时输出!
      }
    }
  }
}

3. 批量输出增强视觉效果

let buffer = ''
const BATCH_SIZE = 3  // 每3个字符输出一次

onChunk = (chunk) => {
  buffer += chunk
  if (buffer.length >= BATCH_SIZE) {
    const output = buffer
    buffer = ''
    onChunk(output)  // 批量输出
  }
}

效果:

避免单字符输出太快,看不清
保持流畅的打字效果
视觉上更明显

实际测试数据

测试1: "你好"

⏱️ 首字延迟: 5,449 ms
⏱️ 总耗时: 6,867 ms
📊 接收块数: 110
📝 总字符数: 124

预期性能(不同场景)

消息长度	预期首字延迟	预期总耗时	说明
简短(10字)	800-2000ms	1500-3000ms	最佳
中等(50字)	1000-3000ms	3000-6000ms	良好
长(200字)	2000-5000ms	8000-15000ms	可接受

注意: 实际性能受以下因素影响:

API服务器负载
网络延迟
模型类型(flash模型最快)
上下文长度

为什么"看起来没那么明显"?

原因1: 首字延迟仍然较长

虽然从9秒降到5.4秒,但5秒仍然不够快。

对比其他产品:

ChatGPT: 首字延迟 ~500-1500ms ⚡
Claude: 首字延迟 ~800-2000ms ⚡
我们(当前): ~5000ms ⚠️

差距原因:

API服务器慢 - 火山引擎响应慢于OpenAI/Anthropic
网络延迟 - 地理位置导致的延迟
模型类型 - 可以换更快的flash模型

原因2: 流式速度太快

110块 ÷ 6.9秒 = 每秒16块
124字符 ÷ 6.9秒 = 每秒18字符

这个速度非常快,肉眼很难看清单个字符,所以:

✅ 增加了 BATCH_SIZE = 3 批量输出
✅ 每3个字符输出一次
✅ 视觉效果更明显

原因3: 习惯了假流式的"慢"

之前的假流式有人工延迟,看起来很"优雅":

⏱️ 模拟流式输出: 每块延迟30ms
→ 看起来像在"思考"然后"打字"

真流式没有人工延迟,是API返回多快就显示多快:

⏱️ 真流式: API发多快就显示多快
→ 看起来很"急"

这是正常的! 真实的AI产品就是这样的。

进一步优化建议

优化1: 使用更快的模型 ⚡

// 当前使用: doubao-seed-1-6-thinking-250715 (思考模型,慢)
// 建议使用: doubao-seed-1-6-flash-250828 (flash模型,快)

预期效果: 首字延迟 5秒 → 1-2秒

优化2: 减少上下文长度 📉

// chatService.ts
const MAX_CONTEXT_MESSAGES = 10  // 限制上下文
const messages = conversation.messages
  .filter(m => m.status === 'success')
  .slice(-MAX_CONTEXT_MESSAGES)  // 只保留最近10条

预期效果: 请求体更小,响应更快

优化3: 添加"正在输入"指示器 💬

<!-- ChatLayout.vue -->
<div v-if="store.state.isSending && !hasResponse" class="typing-indicator">
  <span>AI正在思考</span>
  <span class="dots">
    <span>.</span><span>.</span><span>.</span>
  </span>
</div>

效果: 用户知道系统在工作,不会觉得"卡住了"

优化4: 调整批量大小 🎛️

// 当前: BATCH_SIZE = 3
// 如果觉得太快: BATCH_SIZE = 5-10
// 如果觉得太慢: BATCH_SIZE = 1-2

建议: 根据个人喜好调整

最佳实践建议

1. 选择合适的模型

const modelRecommendations = {
  速度优先: 'doubao-seed-1-6-flash-250828',  // 最快
  平衡: 'doubao-seed-1-6-250615',             // 中等
  质量优先: 'deepseek-v3-1-terminus',         // 最好但慢
  思考任务: 'doubao-seed-1-6-thinking-250715' // 复杂推理
}

2. 优化上下文管理

✅ 限制消息历史数量(10-20条)
✅ 控制单条消息长度(<2000字符)
✅ 定期清理无用对话

3. 用户体验优化

✅ 显示"正在输入"动画
✅ 首字延迟超过3秒时显示进度
✅ 提供"取消"按钮
✅ 显示预计等待时间

4. 错误处理

✅ 30秒超时控制(已实现)
✅ 网络错误重试机制
✅ 友好的错误提示

性能监控

关键指标

// 监控这些指标
const metrics = {
  首字延迟: '<2000ms 优秀, <5000ms 良好, >5000ms 需优化',
  总耗时: '<5000ms 优秀, <10000ms 良好, >10000ms 需优化',
  接收块数: '>50块说明流式正常',
  平均块大小: '1-3字符正常'
}

性能基准

🟢 优秀: 首字<2秒, 总<5秒
🟡 良好: 首字<5秒, 总<10秒  ← 我们当前在这里
🔴 差: 首字>5秒, 总>10秒

总结

✅ 已完成

✅ 实现真正的流式API
✅ 移除人工延迟
✅ 添加批量输出优化
✅ 完整的性能追踪
✅ 30秒超时控制

🎯 核心成果

首字延迟: 9秒 → 5.4秒 (40%提升)
总耗时: 10秒 → 6.9秒 (33%提升)
用户体验: 假流式 → 真流式 (质的飞跃)

📈 后续优化方向

使用flash模型 → 首字延迟 1-2秒
限制上下文 → 请求更快
添加UI指示器 → 体验更好
调整批量大小 → 视觉更佳

🎉 最终评价

虽然视觉上"看起来差不多",但技术上已经是质的飞跃:

✅ 从假流式变成真流式
✅ 性能提升30-40%
✅ 为后续优化打下基础

这是正确的方向! 🚀

创建时间: 2025年10月14日
状态: 流式优化完成 ✅
下一步: 使用flash模型进一步提速

7.7 KiB Raw Blame History Unescape Escape