您好,欢迎访问中国食品安全网!
 

在食品安全领域人工智能垂直应用中构建高质量专业语料的思考

2026-03-28 10:22来源:中国食品安全报 编辑:采编中心

当前,人工智能正以前所未有的速度渗透至食品安全风险治理领域,推动食品安全监管从“被动响应”向“主动预见”、从“经验驱动”向“数据驱动”的根本性转变。然而,在这一转型过程中,一个核心问题日益凸显:如果缺乏高质量的食品安全领域专业语料,将可能导致人工智能应用陷入“场景陷阱”,即投入大量资源建设的智能化平台,最终因无法满足实际需求而沦为“场景摆设”。本文旨在初步阐述食品安全风险治理领域垂直应用中为何必须构建高质量专业语料,为全国推进“人工智能+食品安全”行动提供参考。

一、理论层次:专业语料是垂直领域人工智能的“认知基石”

1.人工智能模型的“数据决定论”。人工智能模型的性能边界内在地取决于其训练数据的质量。无论算法架构如何优化,若缺乏高质量数据,模型将无法学习到该领域的核心知识与规律。我们的研究证实,没有高质量的专业语料库,人工智能在垂直领域的应用就是“无米之炊”“无源之水”。这一结论在学术界正在形成广泛共识。通用大语言模型虽然在海量通用数据上表现卓越,但在食品安全领域面临知识体系碎片化、语义解析粗粒度、专业逻辑离散化等三重局限,难以满足食品安全风险识别等复杂任务对高精度领域知识的需求。

2.食品安全领域的知识特殊性。食品安全领域知识特殊性主要体现在以下维度:第一,专业术语体系复杂且多义性强。食品安全领域涉及食品科学、微生物学、化学、法学、公共管理等多学科深度交叉,存在大量专业术语和复杂概念。同一术语在不同语境下可能呈现不同的语义指向和表达方式,通用语料无法有效识别这些术语之间的复杂语义关系,导致AI模型在知识抽取与理解过程中出现认知偏差。第二,知识体系动态更新且时效性要求高。食品安全法律法规、标准规范、监管政策处于持续迭代更新之中,新发风险、新兴污染物、新型违法手段不断涌现。通用语料受限于训练数据的时间窗口,无法及时捕获这些动态变化,导致模型输出信息存在滞后性甚至根本性错误,难以满足风险治理对时效性的刚性要求。第三,风险信号隐蔽性强且传导链条复杂。 食品安全风险往往隐匿于“从农田到餐桌”的复杂产业链条之中,涉及生产、加工、流通、餐饮、消费等多个环节,跨环节、跨区域、跨主体的风险传导路径错综复杂。单一维度的数据难以完整呈现风险全貌,对风险信号的捕捉需要突破“点状数据”的局限。高质量专业语料能关联多源异构信息,构建起覆盖全链条、可追溯、可推理的风险传导知识图谱,实现对隐蔽风险的穿透式识别与预警。

3.语料标注的核心价值。语料标注是将原始文本数据转化为机器可理解和可学习知识的关键过程。从食品安全风险管理学角度而言,其价值体现在:第一,桥梁作用。连接非结构化原始文本与结构化机器知识。食品安全领域的原始文本(如行政处罚决定书、刑事判决书、民事判决书等)具有高度非结构化、语义复杂、逻辑严密的特点。语料标注通过实体识别、关系抽取、事件标注等技术手段,将这些“人类可读但机器难解”的文本转化为“机器可计算、可推理”的结构化知识,架设起从原始数据到智能应用的语义桥梁。第二,定义作用。决定AI模型的学习边界与性能天花板。语料标注直接定义了AI模型能够学习什么任务、学到什么深度、达到什么精度。标注的粒度粗细、维度多寡、质量高低,从根本上决定了模型的上限,高质量的精细标注能够支撑模型学习复杂的法律逻辑与量罚关系,而粗放式标注则只能实现浅层的信息抽取。第三,基石作用。构建食品安全知识图谱与高级AI应用的底层支撑。食品安全风险治理的智能化本质上依赖于对领域知识的系统化组织与深度挖掘。高质量标注形成的语料库是构建食品安全风险知识图谱、风险传导模型、智能预警系统、行政处罚单自动生成智能体等高级应用的基础设施。没有高质量标注,就没有真正意义上的“AI+食品安全”智能应用。

二、技术层次:专业语料决定垂直应用的性能边界

1.从通用模型到垂直应用的“知识鸿沟”。通用大语言模型虽然在开放域问答中表现优异,但在食品安全垂直领域面临明显的“知识鸿沟”。以国内某研究机构发布的FoodSky(食天)食品大语言模型研究为例,研究者发现通用模型在厨师和营养师专业考试中的准确率远低于领域专用模型,通用大模型在处理食品安全领域的细粒度知识时明显不足,难以应对不同饮食文化背景下的复杂数据与专业场景。没有专业语料的支撑,再强大的通用模型也无法在特定领域达到可用水平,这构成了从通用能力到专业应用之间不可逾越的技术鸿沟。

2.语料标注的多层次技术需求。食品安全领域的人工智能应用涉及从感知到认知的多层次任务,每一层次都对语料标注提出差异化、递进式的技术要求:第一,词法层面。领域术语的精准切分与识别。对于中文食品安全文本,需要构建专业领域词典,实现对“微生物污染”“保健食品”“非法添加物”等专业术语的正确切分与边界识别,避免通用分词模型对领域术语的误切、漏切。第二,语义层面。实体识别与语义关系的深度抽取。包括命名实体识别、语义角色标注、情感标注等。在食品安全领域需要精准识别风险主体(生产者、经营者)、风险因子(致病菌、农兽药残留)、受影响群体(消费者、特定人群)等关键实体,以及它们之间的语义关系(导致、引发、来源于),形成结构化的风险知识单元。第三,句法与篇章层面。跨句、跨段的共指消解与知识关联。例如,“三文鱼”的商品通用名与其学名“大西洋鲑”需建立共指关联;黄曲霉毒素B1在文本中的多种表述需实现统一识别与归并等。

江南大学食品安全与国家战略治理实验室宋晓宁教授的研究指出,通过综合运用大语言模型、知识图谱与文本向量库,可以显著提升食品安全领域的知识检索效率与准确性。科学的食品知识图谱将食品安全领域的知识结构化,形成可关联、可追溯、可推理的知识网络,确保信息的准确性、一致性与可解释性。

三、比较研究:国际前沿与国内实践

1.国际前沿研究。国际学术界在食品安全领域专业语料构建方面已取得显著进展,形成了多模态、多场景、多任务的发展格局。Cell Press旗下期刊《Patterns》近年来发表的FoodSky研究,代表了食品大语言模型的前沿方向。该研究通过整合多种权威来源的食品数据,构建了大规模的食品语料库,并提出了分层主题检索增强生成算法,通过在推理过程中检索外部知识库来增强生成内容的准确性与可靠性。

在计算机视觉领域,面向食品质量检测的专用数据集不断涌现。加纳学者发布的MeatScan数据集,包含11000幅高分辨率RGB图像,覆盖露天市场、肉铺和冷库等真实场景,用于深度学习-based的新鲜与变质牛肉分类。孟加拉国学者发布的FruitVision数据集,包含81232幅图像,涵盖苹果、香蕉、芒果等五种水果的新鲜、腐烂和福尔马林混合三类状态,为检测非法添加物提供了宝贵的训练数据与基准参考。国际经验表明:专业语料的建设已成为全球食品人工智能领域的竞争焦点。谁掌握了高质量的专业语料,谁就掌握了该领域人工智能发展的主动权。这一趋势深刻揭示出:在食品安全垂直领域,语料建设已从“支撑性工作”上升为“战略性工程”。

2.国内探索。总体而言,目前国内食品安全专业领域语料库建设还刚刚起步。江南大学在食品安全领域人工智能应用方面开展了系统性探索,为全国提供了可借鉴的经验。2025年7月,江南大学食品学院与科大讯飞、华为等单位共同发布全球首个食品学科专用大模型FoodSeek(食问)。该模型初步完成了食品专业学科大模型基座构建和多个专用智能体应用的研发工作,初步具备专注于解决食品学科的信息抽取、推理、精准解析、智能问答等多维度功能需求的专业能力。江南大学食品安全与国家战略治理实验室与北京市炜衡(无锡)律师事务所、北京热热科技有限公司等深度合作,基于“企业标注能力+律师专业素养+高校专业模型”的联合模式,正在开发“食品安全风险治理领域专业语料标注平台”,有望填补国内空白。该平台依靠食品安全专业领域的专家标注高质量语料数据,将人工智能专家的知识注入模型,实现了“专业知识+工程能力+场景落地”的闭环。

尽管我国在食品安全领域人工智能应用方面取得重要进展,但我们的调研发现,不少地方在建设“AI+食品安全监管智能化”平台中存在突出问题:没有或很少基于食品安全风险治理语料库,没有科学地对语料进行标注。这一问题导致部分应用场景沦为“场景摆设”——由于缺少高质量的语料,AI模型无法理解食品安全领域的专业术语和上下文,无法在复杂的风险信息中找到路径并进行预测,最终难以支撑真实的业务闭环。没有标注的语料对AI来说就是“天书”,标注质量直接决定AI模型的准确率。

四、未来建议:构建国家通用的食品安全专业语料体系

1.建设国家级食品安全语料库。建议国家相关部门牵头,顶层设计,高度重视食品安全专业语料体系建设,将其作为推进“人工智能+食品安全”行动的基础性、先导性工程,统筹规划、系统推进,为构建全域、全程、全员的食品安全智慧治理新范式奠定坚实基础。

2.形成多层次的语料体系。从政府治理食品安全风险的角度,完整的食品安全语料体系至少应该包括范围广、全覆盖、体系化的行政处罚与司法惩罚案例语料体系,食品安全法律、法规与政策语料体系,食品安全国家技术标准语料体系,各地再深化地方性法规、政策、地方食品技术标准语料体系,从而形成自上而下的全国性食品安全语料库,使之成为推进“AI+食品安全”行动的战略资源。

3.标准先行。语料体系的建设基础是语料的标注,而语料标注需要标注规则。查阅国内所有文献资料与全国性、地方性标准,似乎没有食品安全风险治理领域语料的相关标注规则、方法、指南等。我们思考后初步认为,应该率先研制《食品安全风险治理本体模型与类型定义规范》《食品安全风险治理语料标注操作指南》《食品安全风险治理语料质量分级与审计规程》三个基础性标准。上述第一标准面向食品安全风险治理领域,可以采用本体建模方法,对领域核心概念及其类型进行定义的规范性文件;第二个标准承担着将理论蓝图转化为高质量语料的关键职能,它既是给标注员的“施工手册”,也是连接“学术定义”与“工程实践”的桥梁;第三个标准是承担着“建得怎么样”的核心职能,它是语料库建设的“质检关卡”和“信任基石”。这三个标准之间,可以类比为“宪法—税法—审计法” 的逻辑关系,构成一个从理论建构—工程落地—质量保障的完整闭环。

4.政产学研用协同创新。国家相关部门可采用揭榜挂帅的方式选择全国食品安全风险治理领域语料库建设的牵头单位,组建由高校、科研院所、食品企业、人工智能企业共同参与的政产学研用体系,共同建设国家级食品安全专业语料库,制定全国性的食品安全语料采集、清洗、标注的技术规范和标准体系。鼓励人工智能企业与食品企业合作,将实践经验反哺语料库建设,实现“专业知识+工程能力+场景落地”的闭环。从国家法律法规数据库、国家市场监督管理总局官网、国家裁判文书网等官方渠道归集权威、宏观数据与提供覆盖从农田到餐桌的全链条,包括生产、加工、流通、消费各环节的风险信息,服务语料体系建设。

5.建立语料动态更新机制。食品安全知识具有动态性,语料库建设不是“一锤子买卖”。应同步建议法规动态跟踪:实时捕获法律法规、标准规范的更新信息,风险事件归集:将新发生的食品安全事件及时纳入语料库,模型反馈闭环:利用AI模型在实际应用中的表现,反向指导语料的优化和扩充等更新机制(本文为上海市经济和信息化委员会,项目编号:2025-GZL-RGZN-BTBX-02016的阶段性研究成果,作者系江南大学食品安全与国家战略治理实验室首席专家吴林海)