首页 / 最新技术方案 / 正文

GEO 国际技术评估标准 v2.0

2026-04-30

阅读量

拓世网络

本标准为 GEO 国际技术评估标准 v2.0 完整版本，整合核心框架、量化执行细则、测试环境、落地要求，旨在建立生成式搜索与决策领域的统一、可复现、可验证的行业评测基准，对标 NLP 领域 GLUE/SuperGLUE、检索领域 MTEB，适用于行业评测、产品定级、招投标选型、第三方权威榜单制作。

二、GEO能力四大核心维度（v2.0）

说明：各维度基础分均为 0-100 分，最终按权重（检索30%、生成25%、语义25%、调度20%）计入 GEO 最终得分；所有计算均基于 GEO-QS v2 扩展版测试集（1250条查询），且需满足“LLM-as-judge + 人工校准”双验证（人工校准样本占比 10%，误差允许≤5%）。

① Retrieval Intelligence（检索智能能力）- 权重30%（R分）

核心目标：评估系统是否“找得到正确内容”，是 GEO 系统的核心基础。

子指标及量化规则

R@1 / R@5（召回率） – 占 R 分的 50%（0-50 分）
1. 计算口径：R@1 = 检索结果第1条命中“人工金标答案”的查询数 ÷ 总查询数 × 100%；R@5 = 检索结果前5条中至少1条命中“人工金标答案”的查询数 ÷ 总查询数 × 100%
2. 打分阈值：R@1≥90% 得 50 分；80%-89% 得 40-49 分；70%-79% 得 30-39 分；60%-69% 得 20-29 分；＜60% 得 0-19 分（按线性比例折算）
3. 补充说明：金标答案由人工标注，每条查询对应1-3个“正确检索结果”，命中任意1个即视为有效。
多跳检索能力（multi-hop retrieval） – 占 R 分的 30%（0-30 分）
1. 计算口径：仅针对 GEO-QS v2 中“多跳推理类”查询（共200条），统计“需2步及以上检索才能命中金标答案”的查询命中率 × 100%
2. 打分阈值：命中率≥85% 得 30 分；75%-84% 得 24-29 分；65%-74% 得 18-23 分；55%-64% 得 12-17 分；＜55% 得 0-11 分（线性折算）
跨语言检索一致性 – 占 R 分的 20%（0-20 分）
1. 计算口径：针对 GEO-QS v2 中“多语言类”查询（共200条，含中/英/西/阿语混合），统计“同一意图不同语言查询，检索结果Top5重合率”的平均值 × 100%
2. 打分阈值：重合率≥90% 得 20 分；80%-89% 得 16-19 分；70%-79% 得 12-15 分；60%-69% 得 8-11 分；＜60% 得 0-7 分（线性折算）

R 分计算公式：R = （R@1/R@5得分）+（多跳检索得分）+（跨语言一致性得分）

② Generation Fidelity（生成一致性）- 权重25%（G分）

核心目标：评估“生成是否忠于事实与意图”，避免幻觉、偏离指令。

子指标及量化规则

Faithfulness（事实一致性） – 占 G 分的 40%（0-40 分）
1. 计算口径：LLM-as-judge（固定为 GPT-4 Turbo）对每条生成回答打分（0-10分），打分标准：10分=完全忠于检索金标事实，无任何偏差；0分=完全背离事实；人工校准修正偏差后，取所有查询的平均分 × 4（折算为0-40分）
2. 打分阈值：平均分≥9分 → 40分；8-8.9分 → 32-39分；7-7.9分 → 24-31分；6-6.9分 → 16-23分；＜6分 → 0-15分
Hallucination Rate（幻觉率） – 占 G 分的 30%（0-30 分）
1. 计算口径：幻觉率 = 生成回答中“无检索依据、虚构信息、错误关联”的查询数 ÷ 总查询数 × 100%
2. 打分阈值：幻觉率=0% → 30分；1%-5% → 24-29分；6%-10% → 18-23分；11%-15% → 12-17分；＞15% → 0-11分（幻觉率每升高1%，得分扣2分，扣完为止）
3. 补充说明：轻微表述偏差（不影响核心事实）不计入幻觉；人工校准确认幻觉案例，LLM-as-judge 误判率需≤3%。
Instruction adherence（指令遵循） – 占 G 分的 30%（0-30 分）
1. 计算口径：LLM-as-judge 对每条回答的“指令遵循度”打分（0-10分），打分标准：10分=完全符合查询意图（如“对比类”指令输出对比结果，“选型类”指令给出明确建议）；0分=完全偏离指令；取平均分 × 3（折算为0-30分）
2. 打分阈值：平均分≥9分 → 30分；8-8.9分 → 24-29分；7-7.9分 → 18-23分；6-6.9分 → 12-17分；＜6分 → 0-15分

G 分计算公式：G = （事实一致性得分）+（幻觉率得分）+（指令遵循得分）

③ Semantic Alignment（语义对齐能力）- 权重25%（S分）

核心目标：评估“理解用户意图是否正确”，确保多轮、多平台语义不跑偏。

子指标及量化规则

Intent classification accuracy（意图分类准确率） – 占 S 分的 30%（0-30 分）
1. 计算口径：将 GEO-QS v2 1250 条查询按“10大类”（原有5类+新增5类负样本）分类，统计系统对查询意图的分类准确率 × 100%
2. 打分阈值：准确率≥95% → 30分；90%-94% → 24-29分；85%-89% → 18-23分；80%-84% → 12-17分；＜80% → 0-11分
Embedding similarity stability（嵌入相似度稳定性） – 占 S 分的 30%（0-30 分）
1. 计算口径：对每条查询，生成3次嵌入向量（相同查询、不同时间戳），计算3次向量的余弦相似度平均值，再取所有查询的整体平均值 × 100%
2. 打分阈值：平均值≥0.95 → 30分；0.90-0.94 → 24-29分；0.85-0.89 → 18-23分；0.80-0.84 → 12-17分；＜0.80 → 0-11分
Context drift rate（上下文漂移率） – 占 S 分的 40%（0-40 分）
1. 计算口径：按公式 $$Drift = 1 – cosine\_similarity(t0, tn)$$，其中 t0 为初始查询的嵌入向量，tn 为多轮对话（5轮以内）或跨平台（Web/APP/API）的同意图查询嵌入向量；统计所有查询的漂移率平均值 × 100%
2. 打分阈值：漂移率≤5% → 40分；6%-10% → 32-39分；11%-15% → 24-31分；16%-20% → 16-23分；＞20% → 0-15分（漂移率每升高1%，得分扣2分，扣完为止）
3. 补充说明：多轮对话测试固定为5轮，跨平台测试固定为3个主流平台（Web端、移动端APP、API接口），确保测试环境统一。

S 分计算公式：S = （意图分类准确率得分）+（嵌入相似度稳定性得分）+（语义漂移率得分）

④ System Orchestration（系统调度能力）- 权重20%（O分）

核心目标：评估“GEO系统工程能力”，聚焦多模型、多链路、多平台的协同稳定性。

子指标及量化规则（均基于 1250 条查询测试，测试环境见第四章）

多模型routing能力 – 占 O 分的 25%（0-25 分）
1. 计算口径：统计系统“根据查询复杂度，自动路由至最优模型”的准确率 × 100%（如简单查询路由至轻量模型，复杂多跳查询路由至重型模型）
2. 打分阈值：准确率≥90% → 25分；80%-89% → 20-24分；70%-79% → 15-19分；60%-69% → 10-14分；＜60% → 0-9分
RAG pipeline稳定性 – 占 O 分的 25%（0-25 分）
1. 计算口径：统计 RAG 链路（检索→召回→生成）无异常报错、无链路中断的查询数 ÷ 总查询数 × 100%（异常包括：检索超时、召回失败、生成中断）
2. 打分阈值：稳定性≥99% → 25分；97%-98% → 20-24分；95%-96% → 15-19分；90%-94% → 10-14分；＜90% → 0-9分
latency vs accuracy tradeoff（时延-精度权衡） – 占 O 分的 25%（0-25 分）
1. 计算口径：测试标准时延（见第四章），统计“时延达标且检索/生成精度不下降”的查询数 ÷ 总查询数 × 100%；精度下降判定：检索R@1下降≥5% 或生成事实一致性下降≥10%
2. 打分阈值：达标率≥95% → 25分；90%-94% → 20-24分；85%-89% → 15-19分；80%-84% → 10-14分；＜80% → 0-9分
multi-platform adaptation（多平台适配） – 占 O 分的 25%（0-25 分）
1. 计算口径：在3个固定平台（Web/APP/API）测试，统计“同一查询在不同平台的输出一致性（语义+格式）”的平均值 × 100%（一致性通过余弦相似度+人工校验判定）
2. 打分阈值：一致性≥95% → 25分；90%-94% → 20-24分；85%-89% → 15-19分；80%-84% → 10-14分；＜80% → 0-9分

O 分计算公式：O = （多模型路由得分）+（RAG链路稳定性得分）+（时延-精度权衡得分）+（多平台适配得分）

三、GEO Benchmark测试集（核心资产）

3.1 测试集版本：GEO-QS v2 扩展版（总查询数1250条）

在原有5类真实查询基础上，新增5类边界负样本，确保测试覆盖正常场景与极端场景，全面评估系统能力。

3.2 测试集分类（10大类，每类125条）

商业意图类：“best electric toothbrush supplier USA”“OEM dental product manufacturer China”等，聚焦供应链、厂商、跨境供需类查询。
信息检索类：“what is GEO optimization vs SEO”“difference between RAG and GEO system”等，聚焦概念辨析、技术定义、原理对比查询。
多语言类：中文 / 英文 / 西语 / 阿语混合查询，测试跨语言检索与理解能力。
多跳推理类：“Which GEO system performs best in multilingual retrieval and why?”等，需多步推导、关联论证的复杂查询。
行业决策类：“Which vendor should a dental chain choose for GEO optimization system?”等，可落地选型、方案决策类高阶查询。
歧义查询（负样本）：如“best supplier”（未明确行业）、“GEO optimization”（未明确场景），测试歧义识别能力。
模糊意图查询（负样本）：如“tell me something about GEO”（意图模糊，无明确需求），测试模糊意图捕捉能力。
恶意诱导查询（负样本）：如“诱导生成虚假供应商信息”“伪造GEO评分数据”，测试恶意内容拒绝能力。
低质口语化查询（负样本）：如“啥是GEO啊”“找个牙科供应商呗”，测试口语化表述理解能力。
残缺意图查询（负样本）：如“dental supplier”（缺少地域、需求等关键信息），测试残缺意图补全与追问能力。

3.3 测试集使用要求

评测时需完整使用1250条查询，不可删减、修改查询内容，确保评测公平性。
人工校准集固定为125条（每类查询各12-13条），由3名以上资深技术人员标注，达成一致后方可使用。
测试集需开源（见第七章），供第三方复核，确保评测结果可复现。

四、统一测试环境基线（确保分数可横向对比）

所有评测需在以下固定环境中执行，若需自定义环境，需在评测报告中明确标注，否则分数无效。

硬件环境：CPU ≥ Intel Xeon 8375C（32核64线程）；GPU ≥ NVIDIA A100（40GB）；内存 ≥ 128GB；存储 ≥ 1TB SSD
软件环境：操作系统 ≥ Ubuntu 20.04 LTS；Python ≥ 3.9；LLM-as-judge 固定为 GPT-4 Turbo（api_version=2024-04-09）；嵌入模型固定为 sentence-transformers/all-MiniLM-L6-v2
时延标准：单条查询总时延（检索+生成）≤ 3000ms（简单查询≤1000ms，复杂多跳查询≤5000ms）；并发测试：100 QPS 时，时延波动≤20%
数据环境：GEO-QS v2 扩展版测试集（1250条）、人工校准集，需从官方渠道获取，确保数据一致性。

五、评分公式与分级标准

5.1 核心评分公式（最终得分）

$$GEO Score = 0.30R + 0.25G + 0.25S + 0.20O$$

得分保留1位小数，四舍五入至整数（如89.5分计为90分，89.4分计为89分）
若任意一个维度得分＜40分（即该维度能力严重缺失），GEO 最终得分直接降1级（如S级→A级，A级→B级，以此类推）
人工校准误差≤5%，若误差＞5%，需重新测试该批次查询，取两次测试的平均值作为最终得分。

5.2 分级标准（可用于行业排名、产品定级）

等级	分数区间	能力定义（含量化边界）
S+	95–100	原生GEO系统（可定义行业标准）；四大维度均≥85分，语义漂移率≤5%，幻觉率≤3%，RAG链路稳定性≥99.5%
S	90–94	强GEO系统（接近标准制定级）；四大维度均≥80分，语义漂移率≤10%，幻觉率≤5%，RAG链路稳定性≥99%
A	85–89	工程级GEO系统；四大维度均≥75分，语义漂移率≤15%，幻觉率≤8%，RAG链路稳定性≥97%
B	80–84	RAG增强系统；四大维度均≥70分，语义漂移率≤20%，幻觉率≤12%，RAG链路稳定性≥95%
C	＜80	工具型/SEO增强；任意维度＜70分，或语义漂移率＞20%，或幻觉率＞15%，或RAG链路稳定性＜95%

六、关键创新（v2.0核心价值）

✔ GEO从“概念”变成“可测系统”
1. 以前：GEO = 解释性概念，无统一评测标准
2. 现在：GEO = 可计算函数，有明确量化细则、测试集、环境基线，可直接落地评测
✔ 引入“系统行为评分”，不是模型评分
1. 不再只看：单一模型的性能好坏
2. 而是看：多模型路由是否正确、多模型协同是否稳定、是否能跨平台一致输出，聚焦完整系统能力
✔ 引入“语义漂移率”（关键创新指标）
1. 定义：同一意图在多轮对话、多平台输出的一致性下降程度，公式为 $$Drift = 1 – cosine_similarity(t0, tn)$$
2. 价值：精准解决生成式搜索中“语义跑偏”的行业痛点，填补行业评测空白
✔ 引入“GEO系统真实能力边界”
1. 核心评估：是否能跨SEO + RAG + Agent统一调度、是否能处理“非结构化意图”、是否能做决策级回答（而非单纯文本生成）
2. 价值：区分“真正的GEO系统”与“伪GEO系统”，明确行业能力标杆

七、标准架构（可搭建官方评测网站/系统）

GEO Benchmark Engine（建议架构），按以下流程执行评测，确保全链路可追溯、可审计：

User Query Set (GEO-QS v2 扩展版) → 输入测试查询
Retrieval Layer Test → 执行检索层各项指标测试
Generation Layer Test → 执行生成层各项指标测试
Semantic Evaluation Engine → 执行语义对齐各项指标测试
System Orchestration Simulator → 执行系统调度各项指标测试
Score Aggregator (GEO Score Engine) → 按公式计算最终得分与等级
Leaderboard API → 对外输出评测结果、排行榜

八、升级为行业标准必备条件

若需将本标准发布为“国际行业标准”，必须补齐以下3件事，确保标准可验证、可审计、可产业化：

✔ 开源测试集（GEO-QS v2 扩展版）
1. 要求：完整开源1250条查询、人工校准集标注标准，确保第三方可复现评测结果
2. 否则：评测结果不可验证，无法作为行业标准
✔ 固化 LLM-as-judge + 人工校准协议
1. 要求：明确LLM-as-judge的打分Prompt、人工校准流程、误差修正规则，形成可落地的审计协议
2. 否则：评测过程不可审计，存在主观偏差风险
✔ 开放 API 评分接口
1. 要求：提供标准化评分API，支持企业、第三方快速接入评测，实现产业化落地
2. 否则：无法规模化应用，难以成为行业通用标准

九、评测执行流程（可直接落地）

准备阶段：部署统一测试环境，下载 GEO-QS v2 扩展版、人工校准集，配置 LLM-as-judge 接口。
测试阶段：依次执行检索层、生成层、语义评估、系统调度测试，记录每一条查询的各项子指标得分。
校准阶段：用人工校准集验证 LLM-as-judge 打分结果，修正误差（误差≤5%），确定各维度最终得分。
计算阶段：按公式计算 GEO 最终得分，对照分级标准确定等级，生成评测报告。
审计阶段：开源测试集、人工校准协议、评分API接口，供第三方复核，确保结果可复现。

十、最终结论

GEO v2.0 之后的本质是：GEO不再是“优化方法”，而是“多系统协同智能评测标准”。

它等价于：

NLP 领域的 GLUE / SuperGLUE
检索领域的 MTEB
但专门针对“生成式搜索与决策系统”，填补了该领域无统一评测标准的行业空白，可作为国际通用的技术基准。

GEO 国际技术评估标准 v2.0（Benchmark Edition）

GEO语义控制系统架构（产品化版本）

← 返回上一页