命名实体识别(NER)是自然语言处理(NLP)中的一种基础任务,用于在文本中识别并分类具有特定意义的实体,如人名、地名、组织名、时间或数量表达。它是信息抽取、问答系统、机器翻译等应用的重要组成部分。
核心任务:识别并标注文本中的实体及其类别
典型类别:人名、地名、组织名、日期、数值等
常用模型:CRF、BiLSTM-CRF、Transformer(如BERT)
应用领域:信息抽取、知识图谱、搜索引擎、智能客服
评估指标:准确率、召回率、F1值
NER最早起源于1990年代的信息抽取研究,最初依赖基于规则与词典的方法。随着机器学习的兴起,统计模型(如隐马尔可夫模型、条件随机场)成为主流。近年来,深度学习尤其是Transformer架构(如BERT)显著提升了NER的准确性和可迁移性。
NER通常被视为序列标注问题:给定一个词序列,为每个词分配一个实体标签(如“B-PER”“I-LOC”“O”)。模型通过上下文特征学习判断边界与类别。现代方法借助预训练语言模型捕捉语义依赖,并可结合上下文增强对歧义实体的识别。
NER广泛应用于自动摘要、舆情分析、知识图谱构建等场景。例如,在医疗文本中识别疾病与药物实体,在金融文档中抽取公司和交易信息。其准确性直接影响下游NLP任务的质量与可靠性。
研究热点包括跨语言NER、低资源域迁移学习、以及面向特定行业的自定义实体识别。结合大型语言模型(LLM)的端到端方法正在推动NER向更通用、更语义化的方向发展。