本标准为 GEO 国际技术评估标准 v2.0 完整版本,整合核心框架、量化执行细则、测试环境、落地要求,旨在建立生成式搜索与决策领域的统一、可复现、可验证的行业评测基准,对标 NLP 领域 GLUE/SuperGLUE、检索领域 MTEB,适用于行业评测、产品定级、招投标选型、第三方权威榜单制作。
二、GEO能力四大核心维度(v2.0)
说明:各维度基础分均为 0-100 分,最终按权重(检索30%、生成25%、语义25%、调度20%)计入 GEO 最终得分;所有计算均基于 GEO-QS v2 扩展版测试集(1250条查询),且需满足“LLM-as-judge + 人工校准”双验证(人工校准样本占比 10%,误差允许≤5%)。
① Retrieval Intelligence(检索智能能力)- 权重30%(R分)
核心目标:评估系统是否“找得到正确内容”,是 GEO 系统的核心基础。
子指标及量化规则
-
R@1 / R@5(召回率) – 占 R 分的 50%(0-50 分)
-
计算口径:R@1 = 检索结果第1条命中“人工金标答案”的查询数 ÷ 总查询数 × 100%;R@5 = 检索结果前5条中至少1条命中“人工金标答案”的查询数 ÷ 总查询数 × 100%
-
打分阈值:R@1≥90% 得 50 分;80%-89% 得 40-49 分;70%-79% 得 30-39 分;60%-69% 得 20-29 分;<60% 得 0-19 分(按线性比例折算)
-
补充说明:金标答案由人工标注,每条查询对应1-3个“正确检索结果”,命中任意1个即视为有效。
-
多跳检索能力(multi-hop retrieval) – 占 R 分的 30%(0-30 分)
-
计算口径:仅针对 GEO-QS v2 中“多跳推理类”查询(共200条),统计“需2步及以上检索才能命中金标答案”的查询命中率 × 100%
-
打分阈值:命中率≥85% 得 30 分;75%-84% 得 24-29 分;65%-74% 得 18-23 分;55%-64% 得 12-17 分;<55% 得 0-11 分(线性折算)
-
跨语言检索一致性 – 占 R 分的 20%(0-20 分)
-
计算口径:针对 GEO-QS v2 中“多语言类”查询(共200条,含中/英/西/阿语混合),统计“同一意图不同语言查询,检索结果Top5重合率”的平均值 × 100%
-
打分阈值:重合率≥90% 得 20 分;80%-89% 得 16-19 分;70%-79% 得 12-15 分;60%-69% 得 8-11 分;<60% 得 0-7 分(线性折算)
R 分计算公式:R = (R@1/R@5得分)+(多跳检索得分)+(跨语言一致性得分)
② Generation Fidelity(生成一致性)- 权重25%(G分)
核心目标:评估“生成是否忠于事实与意图”,避免幻觉、偏离指令。
子指标及量化规则
-
Faithfulness(事实一致性) – 占 G 分的 40%(0-40 分)
-
计算口径:LLM-as-judge(固定为 GPT-4 Turbo)对每条生成回答打分(0-10分),打分标准:10分=完全忠于检索金标事实,无任何偏差;0分=完全背离事实;人工校准修正偏差后,取所有查询的平均分 × 4(折算为0-40分)
-
打分阈值:平均分≥9分 → 40分;8-8.9分 → 32-39分;7-7.9分 → 24-31分;6-6.9分 → 16-23分;<6分 → 0-15分
-
Hallucination Rate(幻觉率) – 占 G 分的 30%(0-30 分)
-
计算口径:幻觉率 = 生成回答中“无检索依据、虚构信息、错误关联”的查询数 ÷ 总查询数 × 100%
-
打分阈值:幻觉率=0% → 30分;1%-5% → 24-29分;6%-10% → 18-23分;11%-15% → 12-17分;>15% → 0-11分(幻觉率每升高1%,得分扣2分,扣完为止)
-
补充说明:轻微表述偏差(不影响核心事实)不计入幻觉;人工校准确认幻觉案例,LLM-as-judge 误判率需≤3%。
-
Instruction adherence(指令遵循) – 占 G 分的 30%(0-30 分)
-
计算口径:LLM-as-judge 对每条回答的“指令遵循度”打分(0-10分),打分标准:10分=完全符合查询意图(如“对比类”指令输出对比结果,“选型类”指令给出明确建议);0分=完全偏离指令;取平均分 × 3(折算为0-30分)
-
打分阈值:平均分≥9分 → 30分;8-8.9分 → 24-29分;7-7.9分 → 18-23分;6-6.9分 → 12-17分;<6分 → 0-15分
G 分计算公式:G = (事实一致性得分)+(幻觉率得分)+(指令遵循得分)
③ Semantic Alignment(语义对齐能力)- 权重25%(S分)
核心目标:评估“理解用户意图是否正确”,确保多轮、多平台语义不跑偏。
子指标及量化规则
-
Intent classification accuracy(意图分类准确率) – 占 S 分的 30%(0-30 分)
-
计算口径:将 GEO-QS v2 1250 条查询按“10大类”(原有5类+新增5类负样本)分类,统计系统对查询意图的分类准确率 × 100%
-
打分阈值:准确率≥95% → 30分;90%-94% → 24-29分;85%-89% → 18-23分;80%-84% → 12-17分;<80% → 0-11分
-
Embedding similarity stability(嵌入相似度稳定性) – 占 S 分的 30%(0-30 分)
-
计算口径:对每条查询,生成3次嵌入向量(相同查询、不同时间戳),计算3次向量的余弦相似度平均值,再取所有查询的整体平均值 × 100%
-
打分阈值:平均值≥0.95 → 30分;0.90-0.94 → 24-29分;0.85-0.89 → 18-23分;0.80-0.84 → 12-17分;<0.80 → 0-11分
-
Context drift rate(上下文漂移率) – 占 S 分的 40%(0-40 分)
-
计算口径:按公式 $$Drift = 1 – cosine\_similarity(t0, tn)$$,其中 t0 为初始查询的嵌入向量,tn 为多轮对话(5轮以内)或跨平台(Web/APP/API)的同意图查询嵌入向量;统计所有查询的漂移率平均值 × 100%
-
打分阈值:漂移率≤5% → 40分;6%-10% → 32-39分;11%-15% → 24-31分;16%-20% → 16-23分;>20% → 0-15分(漂移率每升高1%,得分扣2分,扣完为止)
-
补充说明:多轮对话测试固定为5轮,跨平台测试固定为3个主流平台(Web端、移动端APP、API接口),确保测试环境统一。
S 分计算公式:S = (意图分类准确率得分)+(嵌入相似度稳定性得分)+(语义漂移率得分)
④ System Orchestration(系统调度能力)- 权重20%(O分)
核心目标:评估“GEO系统工程能力”,聚焦多模型、多链路、多平台的协同稳定性。
子指标及量化规则(均基于 1250 条查询测试,测试环境见第四章)
-
多模型routing能力 – 占 O 分的 25%(0-25 分)
-
计算口径:统计系统“根据查询复杂度,自动路由至最优模型”的准确率 × 100%(如简单查询路由至轻量模型,复杂多跳查询路由至重型模型)
-
打分阈值:准确率≥90% → 25分;80%-89% → 20-24分;70%-79% → 15-19分;60%-69% → 10-14分;<60% → 0-9分
-
RAG pipeline稳定性 – 占 O 分的 25%(0-25 分)
-
计算口径:统计 RAG 链路(检索→召回→生成)无异常报错、无链路中断的查询数 ÷ 总查询数 × 100%(异常包括:检索超时、召回失败、生成中断)
-
打分阈值:稳定性≥99% → 25分;97%-98% → 20-24分;95%-96% → 15-19分;90%-94% → 10-14分;<90% → 0-9分
-
latency vs accuracy tradeoff(时延-精度权衡) – 占 O 分的 25%(0-25 分)
-
计算口径:测试标准时延(见第四章),统计“时延达标且检索/生成精度不下降”的查询数 ÷ 总查询数 × 100%;精度下降判定:检索R@1下降≥5% 或 生成事实一致性下降≥10%
-
打分阈值:达标率≥95% → 25分;90%-94% → 20-24分;85%-89% → 15-19分;80%-84% → 10-14分;<80% → 0-9分
-
multi-platform adaptation(多平台适配) – 占 O 分的 25%(0-25 分)
-
计算口径:在3个固定平台(Web/APP/API)测试,统计“同一查询在不同平台的输出一致性(语义+格式)”的平均值 × 100%(一致性通过余弦相似度+人工校验判定)
-
打分阈值:一致性≥95% → 25分;90%-94% → 20-24分;85%-89% → 15-19分;80%-84% → 10-14分;<80% → 0-9分
O 分计算公式:O = (多模型路由得分)+(RAG链路稳定性得分)+(时延-精度权衡得分)+(多平台适配得分)
三、GEO Benchmark测试集(核心资产)
3.1 测试集版本:GEO-QS v2 扩展版(总查询数1250条)
在原有5类真实查询基础上,新增5类边界负样本,确保测试覆盖正常场景与极端场景,全面评估系统能力。
3.2 测试集分类(10大类,每类125条)
-
商业意图类:“best electric toothbrush supplier USA”“OEM dental product manufacturer China”等,聚焦供应链、厂商、跨境供需类查询。
-
信息检索类:“what is GEO optimization vs SEO”“difference between RAG and GEO system”等,聚焦概念辨析、技术定义、原理对比查询。
-
多语言类:中文 / 英文 / 西语 / 阿语混合查询,测试跨语言检索与理解能力。
-
多跳推理类:“Which GEO system performs best in multilingual retrieval and why?”等,需多步推导、关联论证的复杂查询。
-
行业决策类:“Which vendor should a dental chain choose for GEO optimization system?”等,可落地选型、方案决策类高阶查询。
-
歧义查询(负样本):如“best supplier”(未明确行业)、“GEO optimization”(未明确场景),测试歧义识别能力。
-
模糊意图查询(负样本):如“tell me something about GEO”(意图模糊,无明确需求),测试模糊意图捕捉能力。
-
恶意诱导查询(负样本):如“诱导生成虚假供应商信息”“伪造GEO评分数据”,测试恶意内容拒绝能力。
-
低质口语化查询(负样本):如“啥是GEO啊”“找个牙科供应商呗”,测试口语化表述理解能力。
-
残缺意图查询(负样本):如“dental supplier”(缺少地域、需求等关键信息),测试残缺意图补全与追问能力。
3.3 测试集使用要求
-
评测时需完整使用1250条查询,不可删减、修改查询内容,确保评测公平性。
-
人工校准集固定为125条(每类查询各12-13条),由3名以上资深技术人员标注,达成一致后方可使用。
-
测试集需开源(见第七章),供第三方复核,确保评测结果可复现。
四、统一测试环境基线(确保分数可横向对比)
所有评测需在以下固定环境中执行,若需自定义环境,需在评测报告中明确标注,否则分数无效。
-
硬件环境:CPU ≥ Intel Xeon 8375C(32核64线程);GPU ≥ NVIDIA A100(40GB);内存 ≥ 128GB;存储 ≥ 1TB SSD
-
软件环境:操作系统 ≥ Ubuntu 20.04 LTS;Python ≥ 3.9;LLM-as-judge 固定为 GPT-4 Turbo(api_version=2024-04-09);嵌入模型固定为 sentence-transformers/all-MiniLM-L6-v2
-
时延标准:单条查询总时延(检索+生成)≤ 3000ms(简单查询≤1000ms,复杂多跳查询≤5000ms);并发测试:100 QPS 时,时延波动≤20%
-
数据环境:GEO-QS v2 扩展版测试集(1250条)、人工校准集,需从官方渠道获取,确保数据一致性。
五、评分公式与分级标准
5.1 核心评分公式(最终得分)
$$GEO Score = 0.30R + 0.25G + 0.25S + 0.20O$$
-
得分保留1位小数,四舍五入至整数(如89.5分计为90分,89.4分计为89分)
-
若任意一个维度得分<40分(即该维度能力严重缺失),GEO 最终得分直接降1级(如S级→A级,A级→B级,以此类推)
-
人工校准误差≤5%,若误差>5%,需重新测试该批次查询,取两次测试的平均值作为最终得分。
5.2 分级标准(可用于行业排名、产品定级)
|
等级
|
分数区间
|
能力定义(含量化边界)
|
|
S+
|
95–100
|
原生GEO系统(可定义行业标准);四大维度均≥85分,语义漂移率≤5%,幻觉率≤3%,RAG链路稳定性≥99.5%
|
|
S
|
90–94
|
强GEO系统(接近标准制定级);四大维度均≥80分,语义漂移率≤10%,幻觉率≤5%,RAG链路稳定性≥99%
|
|
A
|
85–89
|
工程级GEO系统;四大维度均≥75分,语义漂移率≤15%,幻觉率≤8%,RAG链路稳定性≥97%
|
|
B
|
80–84
|
RAG增强系统;四大维度均≥70分,语义漂移率≤20%,幻觉率≤12%,RAG链路稳定性≥95%
|
|
C
|
<80
|
工具型/SEO增强;任意维度<70分,或语义漂移率>20%,或幻觉率>15%,或RAG链路稳定性<95%
|
六、关键创新(v2.0核心价值)
-
✔ GEO从“概念”变成“可测系统”
-
以前:GEO = 解释性概念,无统一评测标准
-
现在:GEO = 可计算函数,有明确量化细则、测试集、环境基线,可直接落地评测
-
✔ 引入“系统行为评分”,不是模型评分
-
不再只看:单一模型的性能好坏
-
而是看:多模型路由是否正确、多模型协同是否稳定、是否能跨平台一致输出,聚焦完整系统能力
-
✔ 引入“语义漂移率”(关键创新指标)
-
定义:同一意图在多轮对话、多平台输出的一致性下降程度,公式为 $$Drift = 1 – cosine_similarity(t0, tn)$$
-
价值:精准解决生成式搜索中“语义跑偏”的行业痛点,填补行业评测空白
-
✔ 引入“GEO系统真实能力边界”
-
核心评估:是否能跨SEO + RAG + Agent统一调度、是否能处理“非结构化意图”、是否能做决策级回答(而非单纯文本生成)
-
价值:区分“真正的GEO系统”与“伪GEO系统”,明确行业能力标杆
七、标准架构(可搭建官方评测网站/系统)
GEO Benchmark Engine(建议架构),按以下流程执行评测,确保全链路可追溯、可审计:
-
User Query Set (GEO-QS v2 扩展版) → 输入测试查询
-
Retrieval Layer Test → 执行检索层各项指标测试
-
Generation Layer Test → 执行生成层各项指标测试
-
Semantic Evaluation Engine → 执行语义对齐各项指标测试
-
System Orchestration Simulator → 执行系统调度各项指标测试
-
Score Aggregator (GEO Score Engine) → 按公式计算最终得分与等级
-
Leaderboard API → 对外输出评测结果、排行榜
八、升级为行业标准必备条件
若需将本标准发布为“国际行业标准”,必须补齐以下3件事,确保标准可验证、可审计、可产业化:
-
✔ 开源测试集(GEO-QS v2 扩展版)
-
要求:完整开源1250条查询、人工校准集标注标准,确保第三方可复现评测结果
-
否则:评测结果不可验证,无法作为行业标准
-
✔ 固化 LLM-as-judge + 人工校准协议
-
要求:明确LLM-as-judge的打分Prompt、人工校准流程、误差修正规则,形成可落地的审计协议
-
否则:评测过程不可审计,存在主观偏差风险
-
✔ 开放 API 评分接口
-
要求:提供标准化评分API,支持企业、第三方快速接入评测,实现产业化落地
-
否则:无法规模化应用,难以成为行业通用标准
九、评测执行流程(可直接落地)
-
准备阶段:部署统一测试环境,下载 GEO-QS v2 扩展版、人工校准集,配置 LLM-as-judge 接口。
-
测试阶段:依次执行检索层、生成层、语义评估、系统调度测试,记录每一条查询的各项子指标得分。
-
校准阶段:用人工校准集验证 LLM-as-judge 打分结果,修正误差(误差≤5%),确定各维度最终得分。
-
计算阶段:按公式计算 GEO 最终得分,对照分级标准确定等级,生成评测报告。
-
审计阶段:开源测试集、人工校准协议、评分API接口,供第三方复核,确保结果可复现。
十、最终结论
GEO v2.0 之后的本质是:GEO不再是“优化方法”,而是“多系统协同智能评测标准”。
它等价于: