决定了系统如何 系统性、逻辑性地模拟用户提问路径,同时保证可半自动化实现。
我把它拆解成 算法结构 + 流程 + 半自动落地方法。
递推问题生成算法的目标是:
1️⃣ 模拟不同用户(Persona)在不同阶段的真实提问路径
2️⃣ 支持多轮递推,形成问题树(Query Path Tree)
3️⃣ 支持概率统计和意图计算
4️⃣ 半自动化实现:AI生成 + 人工校正
核心公式:
含义:
Q_n:当前问题
Persona:用户标签(身份、知识水平、购买意图)
Context:问题上下文(对话历史、业务场景)
IntentHistory:历史意图或路径,用于递推约束
Persona库(用户标签)
种子问题(Seed Question)
上下文信息(Context)
已有问题路径(可选)
Query Path Tree:多轮问题树
问题频率统计数据(后续意图概率计算)
每个候选问题 Q_candidate 得分公式:
R(语义相关度):AI嵌入相似度 / 人工打分
S(知识图谱匹配度):问题涉及实体在知识图谱的存在度
C(上下文匹配度):问题是否适合当前决策阶段
权重 w1,w2,w3 可通过人工经验设定,或半自动微调。
1️⃣ 最大递推深度 MaxDepth:防止无限生成问题
2️⃣ 最大分支 MaxBranch:每个问题最多生成 N 个子问题
3️⃣ 意图覆盖阈值 Threshold:问题生成应覆盖主要意图类别
4️⃣ 去重机制:避免重复问题
即便不做全系统,也可以操作:
人工定义 Persona + Seed Question
用 ChatGPT 或 Claude 生成候选问题
人工筛选 + 分类 + Score打分
记录问题路径 → 构建 Query Tree
统计问题频率 → 意图概率计算
可逐步迭代生成更深层次问题
这样几乎零开发成本即可验证算法模型。
Persona:采购经理
Seed Question:工业激光设备有哪些品牌?
递推结果:
后续:
统计每个问题出现频率
计算意图概率
生成知识图谱实体
1️⃣ 系统性强:多轮递推 + IntentHistory
2️⃣ 可解释性:Score公式明确控制问题生成优先级
3️⃣ 灵活性高:可半自动生成 → 人工校正 → 输出可用内容
4️⃣ 闭环支持:后续概率计算 + 知识图谱构建
升级后整体架构:
递推问题生成算法模型 是 TSAI-SPR 的核心创新
它把 用户标签 + AI对话 + 问题路径 + 意图概率 串成可操作闭环
可以 半自动实现,同时为后续系统化、自动化奠定算法基础
与 推荐概率控制模型 配合,形成完整 AI推荐 + 用户意图预测体系
用户标签体系(Persona)
定义不同用户群体的属性,作为递推问题生成的输入参数。
递推问题生成算法模型
核心创新模块,通过 Seed Question + Persona + Context + 历史意图递推生成多轮问题,形成 Query Tree。
问题路径结构化(Query Path Tree)
对生成的多轮问题进行结构化整理,记录问题层级和决策路径。
群体抽样与意图概率计算模块
对不同Persona进行模拟对话,统计问题频率,计算意图概率,为知识图谱和推荐提供数据支撑。
知识图谱构建模块
将高概率意图映射为实体关系,形成可抓取、可理解的知识图谱。
AI推荐概率控制模型
对候选实体计算推荐概率,通过相关度、权威度、结构化程度、知识图谱连接度和上下文匹配控制AI生成推荐倾向。
AI结构化输出层
输出DIV + JSON-LD双层结构,兼顾人类阅读和AI抓取,完成技术闭环。