Skip to content

对话支持视频输入 #6521

@zhanghx0905

Description

@zhanghx0905

例行检查

  • 我已确认目前没有类似 features
  • 我已确认我已升级到最新版本
  • 我已完整查看过项目 README,已确定现有版本无法满足需求
  • 我理解并愿意跟进此 features,协助测试和提供反馈
  • 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭

功能描述

希望在对话中支持 视频输入
用户可以上传视频文件,由系统将视频内容传递给支持多模态的视频模型进行分析,实现对视频内容的理解和问答。

目前已有不少模型开始支持视频理解,例如 Qwen3.5、Gemini 系列模型 等,如果 FastGPT 能支持视频输入,可以更好地利用这些模型能力。

应用场景

  • 上传视频并让 AI 总结视频内容
  • 用于教育、监控分析、内容审核等场景

相关示例

用户上传 demo.mp4

用户提问:

帮我总结这个视频的主要内容
视频里出现了哪些人物或场景?
这个视频大概讲了什么?

AI 返回对视频内容的分析或总结。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions