12月2日,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组的荀子古籍大语言模型发布会暨古籍智能化研究与产业应用研讨会,在古联(北京)数字传媒科技有限公司成功举办。
荀子古籍大语言模型是由南京农业大学王东波教授为首席专家的国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组联合中华书局古联公司,为时数月的研究推出的专门应用于古籍处理与研究的智能工具,是一款专门用于古籍信息处理的基座模型、对话模型与智能代理为主要目标的开源的、公益的古籍大语言模型。
据介绍,目前,作为开源的、公益的研究成果的荀子古籍大语言模型已在GitHub(https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM)、ModelScope等网站开源,用户可自行下载部署使用。
南京农业大学信息管理学院王东波教授以“荀子古籍大语言模型构建及应用研究”为题,做了深入报告。他阐述了大模型如ChatGPT在AI产业中引发的革命,并揭示了古籍领域对大语言模型的需求、以及国家层面的关注。他指出,尽管目前已有200多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。他提出需要构建一个支持二次开发的基础大模型,同时构建专门针对古籍领域的对话大模型,以应对这一挑战。随后,王教授简要介绍了荀子古籍大语言模型评测主流大语言模型古籍处理能力,构造模型训练数据,以及古籍大模型训练过程和表现效果,并指出模型的构建虽然受算力、场景应用等多方影响,但精准度较高的优质数据,则是最为关键的,
在现场,王东波教授技术团队进行荀子大模型的现场演示,包括古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本翻译等古籍处理场景。通过这一环节,与会者亲身体验模型的实用性和直观效果,进一步证明了其在古籍处理领域的应用潜力。
中华书局古联公司总经理洪涛分享了在古籍智能化领域的探索历程,以大语言模型的应用为中心,介绍了古联公司的多方经验,对于利用古籍大模型进行辨残补缺优化OCR、自动标点、自动翻译、自动注释、自动生成主题词与摘要、自动构建古籍知识库等系统能力做了分析。除了在专业领域推动古籍整理、古籍数字化、古籍利用与传播,洪涛也分析了大模型在大众领域的应用前景,比如通过实现基于“中华经典古籍库”的语义检索和回答,让大众用户能够顺畅的利用古籍的内容。古籍大模型还可以用于AI写作、AI教学、数字文娱等。同时也对古籍智能化领域面临的困难与挑战进行了深入分析。
据了解,此次会议是南京农业大学古籍大语言模型研发团队和中华书局古联公司合作探索古籍大语言模型的第一步。未来,古联公司将基于百亿级古籍大数据,着手研发下新一版商用古籍大模型,为古籍智能整理、大众传播的产业应用提供强大的技术支持,推动古籍事业的新发展。
(光明日报全媒体记者陈雪)