食品安全风险治理专业语料中虚假语料的产生、主要危害与治理路径

中国食品安全报讯在食品安全风险治理领域，专业语料库的构建已成为人工智能赋能食品安全治理的基础性工程。没有高质量的专业语料库，人工智能在食品安全风险垂直领域的应用就是无米之炊、无源之水。然而，在食品安全专业语料的采集、标注与应用过程中，虚假语料问题日益突出，成为制约AI模型性能提升和食品安全治理效能发挥的关键瓶颈。

虚假语料的界定

虚假语料是指在食品安全风险治理专业语料体系中，与客观事实不符、与原始文本不一致或与法定标准相悖的语言材料。从语料类型角度来分析，虚假语料可划分为三类：

一是来源虚假语料。此类语料的原始文本本身存在问题，包括但不限于：伪造的行政处罚决定书、篡改的司法裁判文书、非法定渠道发布的标准文本等。例如，在某食品安全行政处罚案件中，有职业打假人将购物小票中盖有“购物时已确认商品未过保质期”的内容擅自裁减后作为证据提交法院，最终被法院认定“篡改证据”并处以罚款。类似的，有企业篡改产品生产日期标签，企图瞒天过海，被市场监管部门查获并处罚。

二是标注虚假语料。此类语料的原始文本真实有效，但在标注过程中产生了与原文不一致的错误。标注虚假语料主要表现为：文本转录错误（如OCR识别错误）、语义理解偏差（如将“不宜”误标为“不得”）、分类错误（如将规章误标为行政法规）等。

三是应用虚假语料。此类语料本身真实且标注正确，但在模型训练和应用过程中被错误解读或不当使用，导致产生与立法原意、标准本意相悖的结论。这类虚假语料最具隐蔽性，往往需要专业法律知识和食品安全知识才能识别。

需要强调的是，虚假语料不同于一般的技术性错误。技术性错误如OCR识别偏差、字段遗漏等，具有偶发性、可识别、可修正的特点。而虚假语料往往具有系统性、隐蔽性和危害性，可能与数据采集、标注规则、质量审核等环节的系统性缺陷相关，也可能源于外部的恶意篡改或伪造。

虚假语料产生的深层原因

一是食品安全法规标准体系的复杂性。截至2024年3月，全国共发布食品安全国家标准1610项，其中，通用标准15项、食品产品标准72项、特殊膳食食品标准10项、食品添加剂质量规格及相关标准643项、食品营养强化剂质量规格标准75项、食品相关产品标准18项、生产经营规范标准36项、理化检验方法标准256项、寄生虫检验方法6项、微生物检验方法标准45项、毒理学检验方法与规程标准29项、农药残留检测方法标准120项、兽药残留检测方法标准95项、被替代（拟替代）和已废止（待废止）标准190项法律。此外，行政法规、部门规章、规范性文件数以千计。如此庞大的文本体系在语料化过程中面临多重挑战：标准文本获取渠道不一、版本更新频繁、部门规章与规范性文件边界模糊等，都为虚假语料的产生提供了土壤。以标准文本的获取为例当标注人员无法从合法、权威渠道获取标准文本时，使用非官方版本或过时版本进行标注，必然导致标注结果与法定标准不符。

二是法律语言的模糊性与歧义性。食品安全法律法规规则与规范性文件在制定过程中，可能由于语言使用不够规范、表述不够严谨，容易产生语义歧义，增加了语料标注的难度。法律法规规则与规范性文件等文本自身的语义模糊性是虚假语料产生的深层根源之一。当标注人员面对语义不确定的规范条款时，不同的理解可能导致不同的标注结果，其中可能与法律原意相悖的结果本质上也是一种“虚假语料”。

三是食品专业知识与法律知识的跨学科鸿沟。食品安全语料标注需要双重专业知识：食品科学（污染物限量、微生物指标、检测方法等）和法学（规范条款识别、效力层级判断、法律法规关联等）。在当前的标注实践中，具备双重专业背景的标注人员极为稀缺，标注结果与领域知识的偏差在所难免。

四是数据采集与标注流程的系统性缺陷。从数据采集、预处理到标注规则制定、标注执行、质量审核，语料标注的每一个环节都可能产生虚假语料。标准文本公开方式五花八门、公告发布渠道不统一、标准复审信息不透明等问题，都增加了获取真实、权威语料的难度。

虚假语料的主要危害

一是导致AI模型“认知偏差”。AI模型对食品安全规范的理解完全依赖于训练语料。当训练语料中存在虚假信息时，模型将学到错误的“知识”，并在应用中持续放大这些错误。以行政处罚案例标注为例，若标注系统将案例中的“违规事实”字段错误标注（如混淆“生产日期篡改”与“保质期标注错误”），模型将无法准确识别不同违法类型之间的本质区别，导致在智能审核、风险预警等应用中产生错误判断。更为严重的是，模型还会将这些错误“泛化”到未见过的案例中，造成系统性偏差。

二是影响食品安全风险治理效能。虚假语料对模型性能的影响，最终会传导到实际的食品安全风险治理工作中。若基于虚假标注训练的模型被应用于执法辅助决策，可能导致以下后果：其一，监管效能下降，模型将合规行为误判为违法，增加执法负担；将违法行为漏判，增加食品安全风险。其二，执法公平受损，模型对不同违法行为的定性、量罚推荐出现系统性偏差，如果不加以认真、严谨的检查，将可能影响执法的公平公正。其三，公信力受损，基于错误模型作出的执法推荐，一旦被公众知晓，将严重损害食品安全风险治理的公信力。

三是侵蚀食品安全知识体系。食品安全专业语料不仅是AI模型训练的数据，更是食品安全领域知识体系数字化的重要载体。若推广应用中持续有虚假或低质语料导致模型结论偏离，将逐渐侵蚀食品安全领域知识体系的严肃性和权威性。虚假语料的大规模传播，还可能误导企业合规决策、影响消费者判断、干扰政策制定，造成广泛的社会危害。

四是引发法律适用偏差。食品安全治理语料的标注，本质上是对法律规范文本的数字化解析。标注过程中的虚假或偏差，可能改变模型对法律规范条款的理解和适用，甚至影响执法实践，最终影响法律的严肃性和权威性。

虚假语料的系统性治理路径

源头防控：建立权威、统一的语料采集标准。首先必须解决的问题是语料的真实性和权威性。具体措施包括：划定权威来源清单——建立食品安全专业语料的权威来源清单，所有语料采集须从法定发布渠道获取；建立版本管理机制——对法律法规、标准文本的版本变更进行全生命周期管理，确保标注始终基于现行有效版本；研发自动化采集工具——开发自动化采集工具，从权威源直接抽取文本，最大限度减少人工转录环节的差错。

规则先行：制定科学、精细的标注规则。标注规则的科学性是保证语料质量的前提。江南大学食品安全与国家战略治理实验室正在研制全国性团体标准——《中国食品安全法律法规规章与国家行政机关规范性文件标注规则》，该规则紧扣“谁来治理—治理什么—怎么治理”的治理理论框架，对标注对象范围、标注字段体系、标注流程、质量审核标准等作出了明确规定。标注规则的制定为标注工作提供了统一的操作规范，从源头上减少了标注虚假语料的产生。

技术赋能：构建人机协同的标注体系。人机协同标注是提升标注效率、控制标注质量的有效手段。具体可采取以下措施：“机器预标注+人工审核”——机器负责标准化字段的自动抽取，人工负责边界案例和复杂判断，设置AI模型置信度，当置信度低于某一数值时触发人工审核；置信度阈值动态管理——根据模型在验证集上的表现定期调整置信度阈值，确保模型输出质量；“主动学习+难例挖掘”——主动识别模型不确定的样本，优先交由人工标注。

专家把关：建立多学科交叉的质量审核机制。高质量的专业语料标注离不开食品安全和法律双重专业知识的支撑。应构建多学科质量审核机制：初始审核——食品安全和法律专家对标注结果进行审核；交叉复核——不同专家审核结果交叉比对，差异部分由第三人裁定；周期性质检——定期对已入库语料进行质量抽检，抽检比例不低于10%。

制度保障：建立健全语料管理规范体系。应从制度层面为语料质量提供保障，可创造条件准备制定语料标注国家标准——推动语料标注向标准化、规范化方向发展；完善语料更替机制——定期对已标注语料进行核查，当法律法规、标准修订后同步更新相关语料；建立语料溯源机制——记录语料来源、标注人员、审核信息、标注时间，确保可追溯。

食品安全风险治理专业语料是AI赋能食品安全治理的“认知基石”，其质量直接决定人工智能应用的效果和可信度。虚假语料的产生源于法规标准体系的复杂性、法律语言的模糊性、跨学科知识的鸿沟以及数据采集标注流程的系统性缺陷。虚假语料不仅导致AI模型性能下降，更会冲击食品安全风险治理效能，侵蚀食品安全知识体系，影响法律的严肃性和权威性。

治理虚假语料需要坚持“源头防控、规则先行、技术赋能、专家把关、制度保障”五位一体的系统性路径。江南大学食品安全与国家战略治理实验室正在推进的专用语料库建设，正是这一治理路径的先行探索。在未来的工作中，应完善人机协同标注的技术体系，培养食品科学与法学交叉领域的专业人才，为构建高质量、高模型适配性的食品安全专用语料提供坚实保障。（作者系江南大学食品安全风险治理研究院首席专家吴林海）