这个结构按 从底层数据 → 到智能推理系统化讲清楚。 一、数据源层(Data Source Layer) 这是知识图谱最底层的数据来源。 常见来源: 网站内容 企业数据库 API数据 文档 论文 百科 日志数据 例如: 维基百科 维基数据 企业 CRM / ERP 数据库 数据类型: HTML JSON XML CSV SQL数据库 文本 作用: 提供原始知识材料 二、数据采集层(Data Acquisition Layer) 这一层负责 获取数据。 主要技术: 网络爬虫 API采集 数据同步 常见工具: Scrapy Apache Nutch 流程: URL → HTML下载 → 内容存储 输出: 原始数据仓库 三、信息抽取层(Information Extraction Layer) 这一层是 AI 知识图谱的核心。 目标: 从文本中抽取实体、关系、属性 主要技术来自: 自然语言处理 包括: 1 实体识别 命名实体识别 例如: 文本: 苹果公司发布了iPhone 15。 识别: 苹果 → 公司 iPhone 15 → 产品 2 关系抽取 例如: 苹果公司生产iPhone 抽取: (苹果公司生产,iPhone) 3 属性抽取 例如: iPhone 售价为 799 美元 抽取: (iPhone,价格,799) 四、知识融合层(Knowledge Fusion Layer) 不同来源数据需要统一。 解决问题: 实体重复 数据冲突 信息不一致 例如: 苹果公司 (Apple Inc.) 需要合并为: 苹果 技术: 实体对齐 数据清洗 知识融合 涉及: 实体解析 五、本体层(Ontology Layer) 这一层定义 知识结构规则。 概念来自: 本体论(信息科学) 定义: 实体类型 关系类型 属性类型 例如: 实体类型 ├ 人 ├ 公司 └ 产品 关系规则: 人 → 创立 → 公司 公司 → 生产 → 产品 作用: 统一语义 限制错误关系 六、图存储层(Graph Storage Layer) 这一层是真正存储知识图谱的数据库。 数据结构: 节点 边 属性 数据库类型: 图数据库 常见系统: Neo4j 亚马逊海王星 ArangoDB 示例: 节点:苹果 节点:iPhone边缘: 苹果 → 生产 → iPhone 七、推理与应用层(Reasoning & Application Layer) 这是 AI 知识图谱的 智能层。 主要功能: 知识推理 语义搜索 推荐系统 问答系统 推理方法: 规则推理 逻辑推理 概率推理 例如: A 创立了 B, B 生产 C 推理: 与 C 间接相关 常见模型: 贝叶斯网络 八、工业级知识图谱完整架构 总结成一张结构图: AI Knowledge Graph Architecture 7 推理与应用层 6 图数据库层 5 本体层 4 知识融合层 3 信息抽取层 2 数据采集层 1 数据源层 数据流: 数据源 ↓ 采集 ↓ 抽取 ↓ 融合 ↓ 本体建模 ↓ 图数据库 ↓ AI推理应用 九、数学结构(核心) 工业知识图谱通常用: KG = (E, R, A, T, W) 含义: E = 实体 R = 关系 A = 属性 T = 类型/本体 W = 权重/概率 数学基础: 图论 概率论 数理逻辑 十、与你研究的架构关系 你前面提到的: TSAI-SPR 系统性概率递推 知识图谱闭环 其实就是在传统 7层结构上增加一层: 概率递推层 也就是: 图论 + 概率论 + 递归推理