您好,欢迎访问中国食品安全网!
 

AI应用于食品安全风险治理领域中应高度重视语料库及标注

2025-09-11 13:54来源:中国食品安全报 编辑:采编中心

中国食品安全报讯 人工智能(AI)的飞速发展为食品安全风险治理带来了革命性的机遇,正在推动食品安全风险感知与预警从“被动响应”向“主动预见”转变,极大地提升了发现潜在风险的速度和广度;促进风险分析与评估从“经验驱动”向“数据驱动”转变,有助于发现深层次、隐性的风险关联;实现风险管控与应对从“人力密集型”向“智能自动化”转变,缓解了监管资源的稀缺性;推进信息透明与沟通从“单向发布”向“双向互动”转变,破解了食品安全信息不对称。总之,AI正在助力构建一个全域、全程、全员的食品安全智慧治理新范式,有望实现从农田到餐桌的全链条保障。

近年来,江南大学食品安全研究团队走访、学习了诸多省、设区市与县(市、区)市场监管局正在建设的“AI+食品安全监管智能化”平台(以下简称“AI+平台”)等,考察了AI此领域的应用场景,深受鼓励、启发。然而,在考察中发现不少地方在建设“AI+平台”中似乎也有不少问题,突出的问题是没有或很少基于食品安全风险治理语料库,没有科学地对语料进行标注。本文基于食品安全风险管理学角度就简单作一些介绍。

食品安全语料库与语料标注

食品安全语料库是一个大规模、结构化、机器可读的文本数据集合,这些文本数据全部来源于食品安全领域。它不仅仅是简单的文本堆积,而是经过系统性的收集、清洗、标注和组织的“知识宝库”。食品安全语料库是连接人工智能技术与食品安全治理实践的核心桥梁,它是“燃料”之于引擎:没有语料库数据,AI算法就无法训练和运行;“词典”之于翻译:没有语料库,AI就无法理解食品安全领域的专业术语和上下文;“地图”之于导航:没有语料库提供的知识结构,AI就无法在复杂的风险信息中找到路径并进行预测。食品安全语料库的作用是引擎性的,直接赋能于风险感知、智能预测、知识服务和自动化执行四大核心应用场景,最终推动食品安全治理从“事后应对”向“事前预警、事中管控”的现代化、智能化模式转型。没有高质量的专业语料库,人工智能在垂直领域的应用就是“无米之炊”“无源之水”。

在食品安全语料库的建设中,标注(Annotation) 绝不是简单的“打标签”,而是将原始文本数据转化为机器可理解和可学习知识的关键过程。它起到了承上启下、定义AI能力边界的核心作用。在食品安全语料库建设中,标注的作用是核心且不可替代的。它具有连接非结构化的原始文本与结构化机器知识的桥梁作用;具有决定AI模型能够学习什么任务,以及能达到多高性能天花板的定义作用;具有构建食品安全知识图谱和所有高级AI应用(风险预警、智能问答、舆情分析)的基石作用。在标注上的资源(制定规范、人员培训、质量校验)是对整个“AI+平台”项目未来成功与否的最重要投资之一。

食品安全语料标注的价值

语料标注的核心价值与意义。从食品安全风险管理学角度而言,其价值可以从理论研究和技术应用两个层面来理解。

对语言学理论研究的价值。第一,提供实证研究基础:标注语料库为语言学家提供了大规模、可量化的真实语言证据,使语言研究从基于内省和孤例句的方法,转向基于实际使用数据的实证研究。研究者可以分析标注信息来验证或挑战现有的语言学理论。第二,揭示语言规律:通过标注词性、句法结构等,可以系统地研究词汇的分布规律、句法模式的偏好、不同文体或语域的语言特征等。例如,可以轻松地统计出“发展”这个词最常作为动词还是名词使用。第三,记录语言演变:对不同时期的语料进行标注和对比,可以清晰地追踪语言的动态变化,如新词的产生、旧词的消亡、语法结构的变迁等。

自然语言处理(NLP)技术应用价值。这是语料标注最为关键的价值,它是连接人类语言与机器智能的桥梁。第一,为机器学习模型提供“标准答案”:绝大多数主流的NLP模型(如深度学习模型)都是监督学习模型。它们需要大量的标注数据作为训练集来学习规律。没有标注,模型就无从学起。第二,提升模型的性能与精度:高质量的标注数据直接决定了模型性能的上限。更精细、更一致的标注可以帮助模型学到更准确、更细微的语言规律,从而在执行任务(如机器翻译、语音识别)时获得更高的准确率。第三,实现更复杂的NLP任务:基础标注(如分词、词性)是更复杂任务的基础。例如:句法分析依赖于词语的词性标注;命名实体识别(识别出人名、地名、机构名等)需要相应的实体标注;关系抽取(提取实体间的语义关系)和事件抽取等高级任务,更是依赖于大量精细的语义标注。第四,作为模型评估的“黄金标准”:高质量的标注好测试集是评估不同NLP算法性能优劣的客观基准。没有统一的标注标准,就无法公平地比较不同模型的性能。

食品安全语料标注的层次与类型

语料标注是一个多层次体系,从浅到深,信息越来越丰富。

词法层面。第一,分词,对于中文等没有自然空格分隔的语言,这是首要步骤,对于食品安全风险治理专业领域的分词,还需要加入专业领域的词典;第二,词性标注。为每个词语标注其词性(如名词、动词、形容词等),这是最基础、最广泛的标注。

语义层面。第一,命名实体识别:标注文本中的专有名称,在食品安全领域,如,微生物污染、保健食品等,这需要在实践中逐步探索。第二,语义角色标注:标注句子中谓语动词的论元结构(如谁实施了动作、对谁实施了动作、在哪里实施)。第三,情感标注:标注文本中表达的情感倾向(正面、负面、中性)及强度。第四,词义标注:为多义词在特定语境中的含义标注其具体的义项。

句法与语用/篇章层面。句法包括句法分析/依存分析等,明确标注句子中词语之间的语法关系。语用/篇章层面主要是共指消解标注。标注指向同一实体的不同表述。比如,黄曲霉毒素B1,其有如下不同表述:标准学名为黄曲霉毒素B1 (Aflatoxin B1, AFB1),简称为黄曲霉毒素,泛称为霉菌毒素等。再比如,三文鱼,其有如下不同表述:商品通用名为三文鱼,学名为大西洋鲑 (Salmo salar)等。当然还有语篇结构标注,即标注文本中的段落、修辞结构、论点等。

食品安全语料标注面临挑战与未来方向

尽管价值巨大,但语料标注也面临诸多挑战。主要是成本高昂,高质量的人工标注需要语言学专业人士投入大量时间和精力,费用昂贵;一致性问题,不同的标注员对同一语言现象可能有不同的理解,如何保证标注标准的一致性是一个巨大挑战,需要制定详尽的标注规范;主观性,对于一些任务(如情感分析、文本蕴含),其边界可能是模糊的,标注带有一定主观性;动态性,语言在不断变化,新的表达方式和术语层出不穷,标注体系也需要不断更新。

食品安全语料库标注的未来方向是:人机协同标注,利用模型进行预标注,再由人工进行校对和修正,大幅提升效率;主动学习,让模型主动选择那些最能提升自身性能的、最有价值的语料交给人类标注,最大化标注的效益;弱监督与自监督学习,减少对大量人工标注数据的依赖,尝试从非标注数据中自动学习。

食品安全语料标注是语料库从“原材料”升级为“高附加值资产”的关键工序。它不仅是语言学研究的宝贵资源,更是驱动现代自然语言处理技术和大语言模型发展的核心燃料和基础设施。没有高质量的语言标注,就不会有今天如此智能和普及的机器翻译、语音助手、智能客服等AI应用。它的价值在于将人类对语言的理解,清晰地“翻译”给机器,从而教会机器如何理解和运用人类语言。(作者系江南大学食品安全与国家战略治理实验室首席专家吴林海)