食品安全专业语料、数据集与数据治理

在食品安全风险治理领域，专业语料体系的构建已成为人工智能赋能食品安全治理的重要基础工程。然而，语料标注完成后，原始文本虽然已经被初步结构化，但仍难以直接满足垂类模型训练对高质量数据的要求。从“原始文本语料”到“高质量训练数据集”，必须经历系统性的质量控制、标准化处理与结构化增强过程，这一过程就是数据治理（Data Governance），即“面向AI训练的数据质量优化工程”。

核心概念辨析：语料、数据集与数据治理

在食品安全专业语料体系建设中，首先需要厘清三个核心概念及其相互关系。

语料（Corpus）的定义与定位

语料是大规模、结构化、机器可读的文本数据集合，语料库不是简单的文本堆积，而是经过系统性的收集、清洗、标注和组织的“知识宝库”。在食品安全风险治理语料体系中，语料涵盖行政处罚与司法惩罚案例、法律法规规章与规范性文件、食品安全国家标准等多层次内容。

语料的核心定位是作为“原材料储备库”——它保证了内容的权威性、完整性和专业性，但尚未经过面向特定模型训练任务的工程化处理。

数据集（Dataset）的定义

数据集是依据特定模型划分与格式化处理后形成的、可直接用于模型训练、验证与测试的样本集合。从语料到高质量数据集，需要经过“数据采集—数据入库—数据治理—任务标注—高质量数据集构建”的完整流程。

数据治理（Data Governance）的概念

从语料到高质量数据集的过程，核心就是数据治理。数据治理是对语料资产进行系统性管理、多维度质量控制、标准化处理、结构化增强及安全合规保护的完整工程体系，其根本目标是确保数据的可用性、一致性、安全性与可追溯性，从而将原始语料转化，为垂类模型训练提供可靠支撑。

为什么要进行数据治理

数据工程在AI大模型训练中占据60%以上的工作量，直接决定模型性能的上限。正是通过科学的数据治理，才能将通用语料转化为专业化、任务导向的高质量数据集。具体而言，对食品安全语料进行数据治理的核心理由在于：

纠错与清洗：消除各类“语料污染”。食品安全语料可能存在三类虚假语料：来源虚假语料（如伪造的行政处罚决定书、篡改的司法裁判文书）、标注虚假语料（如OCR识别错误、语义理解偏差、将“不宜”误标为“不得”）、应用虚假语料（正确标注但在应用中被错误解读）。这些虚假语料必须通过数据治理予以识别、修正或剔除，否则将直接影响模型的核心性能和食品安全治理效能。从更广的维度看，还面临以下四重污染：一是原始语料层面的OCR错误与格式混乱：食品安全领域的原始文本具有高度非结构化、语义复杂、逻辑严密的特点。扫描版PDF在OCR（Optical Character Recognition，光学字符识别）转换过程中易产生大量识别错误。二是标注语料层面的主观偏差与跨专业理解不一致：语料标注需要食品科学和法学双重专业知识，这种跨学科鸿沟导致不同标注人员在面对语义不确定的规范条款时产生不同的理解与结果，产生标注层面的虚假语料。三是知识体系层面的语义断裂：食品安全领域面临知识体系碎片化、语义解析粗粒度、专业逻辑离散化等三重局限，难以满足食品安全风险识别等复杂任务对高精度领域知识的需求。四是数据分布层面的信息坍缩：原始语料中存在大量类别不平衡问题，若不经过科学的数据增强与分布调整，模型极易在长尾样本上产生误判，陷入“灾难性遗忘”。

标准化与统一化：让各类食品安全数据“说同一种语言”。质量低劣、杂乱无章的数据会导致模型产生“幻觉”式的表现（Garbage In， Garbage Out，垃圾进，垃圾出）。数据治理中的标准化环节就是为了解决这一根本问题，建立统一的数据标准体系，明确各类数据的命名规则、格式规范、编码逻辑等核心要求。

结构化与对齐化：构建可被机器深度学习的知识图谱。语料标注的直接产物是粗糙的标签框，而数据治理则进行更深层次的语义对齐与知识注入。这包括：将“三文鱼”的商品通用名与其学名“大西洋鲑”建立共指关系；构建覆盖全链条、可追溯、可推理的风险传导知识图谱，实现对隐蔽风险的穿透式识别与预警；以及将标注后的样本进行精细化的模型训练数据对齐。

版本化与资产管理：确保AI研发体系的科学回溯与权限管控。研究显示，通用大语言模型虽在海量通用数据上表现卓越，但在食品安全领域面临知识动态更新的挑战，通用语料受限于训练数据的时间窗口，无法及时捕获这些动态变化。知识体系的持续迭代要求建立严格的版本管理机制与访问安全机制，确保核心语料的可迭代性与精准可控性。

从语料到高质量数据集的加工方法

理论上而言，食品安全语料的数据治理可按以下五步工作流程实施，每一步都需融入食品安全领域的专业知识：

深度清洗与标准化（清洗层）。开发自动化清洗流水线，集成去重、缺失值填充、异常值检测等功能，构筑消除虚假语料的第一道防线。构建具有科学清洗规则的自动化处理系统，重点解决食品安全语料中的OCR识别错误、语义理解偏差、分类错误（如将规章误标为行政法规）；统一关键字段的格式与编码体系；并以国家权威标准为核心依据，确保清洗过程的规范性。

任务导向的智能标注与增强（任务层）。构建人机协同标注系统，通过主动学习算法筛选高价值样本，使标注效率提升40%，同时保持95%以上的标注一致性。采用包含基础标注、领域标注、逻辑标注的三级体系：基础标注（实体识别、关系抽取）、领域标注（法律术语标准化、食品安全指标映射）、逻辑标注（因果关系推断、时序逻辑验证）。针对长尾分布样本，进行过采样（SMOTE，Synthetic Minority Over-sampling Technique，合成少数类过采样技术插值）或代价敏感学习，并借助大语言模型生成合成样本，有效缓解长尾分布问题。

结构重构与“三大黄金划分”。从文本语料中构建可计算的向量数据库，将非结构化的食品安全文本转化为特征向量，为模型评估奠定有效基础。基于此，将数据集科学划分为训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）——三者互斥且同分布，训练集用于模型学习特征与规律，验证集用于超参数调优与模型选择，测试集用于最终评估模型的泛化能力，从而客观衡量模型在真实场景中的表现。

搭建多层数据校验与质量评估体系（校验层）。构建涵盖准确性、一致性、完整性、唯一性、及时性等指标的数据质量校验体系。对数值型数据实施基于IQR（Interquartile Range，四分位距）算法的异常值检测，对文本语义建立置信度校验机制。计算标注员间信度（Cohen’s Kappa系数），要求不低于0.85，确保标注结果的可靠性。

严格的版本管理与完善“数据履历”（版本层）。建立涵盖基础层、中间层、应用层的分层治理架构，实现数据仓库的全生命周期追溯管理。记录数据变更、处理规则与核心参数，保障核心语料“数据履历”的可查可溯。采用语义化版本号规范，每次数据变更均需记录版本历史，包含变更内容、变更原因和责任人信息。（作者系江南大学食品安全与国家战略治理实验室首席专家吴林海）