学校主页

【媒体看医大】广西云-广西日报关注我校AI医生为中国—东盟人工智能协同发展注入强劲动能

来源:广西云-广西日报 发布时间:2026-02-02 作者:广西云-广西日报 校对:石鹏 岑晓婧 审核:靳芳卉

| |

2026年1月30日,广西云-广西日报关注我校AI医生创新采用“基础语料库+专业术语定制”模式,通过“专业知识学习—场景实战训练—人机对抗测试”三步法构建语料库,将“数据”转化为“生产力”,为中国—东盟人工智能协同发展注入强劲动能。

报道链接:https://www.gxnews.com.cn/staticpages/20260130/newgx697c95c2-21902581.shtml


太“库”啦!广西打通东盟合作AI“经络”

在中国—东盟自贸区3.0版加速推进的时代浪潮中,语言数据已成为跨境合作的核心“数字基建”。广西高校立足学科优势,紧扣东盟合作与地方发展需求,破解区域合作中的语言壁垒,形成了覆盖法律、医疗、产业、文化等关键领域的语料库建设格局。如今,这些诞生于校园的语料库正走出实验室,真正将“数据”转化为“生产力”,为中国—东盟人工智能协同发展注入强劲动能。

故事一

一所大学的东盟小语种“解码之路”

南宁国际商事法庭调解室内,气氛凝滞。一场涉及中越两国企业的榴莲交易纠纷,因双方对合同条款的法律解释争执不下,已僵持许久。

当法官再次提及越南对买卖合同与合伙关系的界定规则时,越方代表坚持己见,怎么办?此时,工作人员点开了一个系统。几秒后,屏幕上清晰显示出对应的越南现行法律条文,以及精准的中越双语对照译文。拿着这份无可辩驳的“智能法律参考”,双方终于找到了共识的基础,和解得以达成。

这一系统,正是广西民族大学联合自治区司法厅研发的“中国—东盟法律咨询服务智能体”。智能体的语料库里,不仅有越南,还有印尼、老挝、泰语等东盟国家语言“库存”,这正是广西高校人工智能语料库从实验室走向应用场景的生动写照。

中国—东盟法律智能体平台界面。学校供图

时间倒回更早。在广西民族大学人工智能学院,郭泉老师面对的困境更为原始。曾经,在他的电脑屏幕上,老挝语的字符经过通用识别软件扫描后,变成了一团难以辨认的乱码。“准确率还不到40%,”他指着屏幕说,“这就像给你一本天书,连字母表都是错的”。

问题的核心在于“饥饿”。人工智能大模型需要海量数据“喂养”,但对于老挝语、缅甸语等东盟小语种,数字世界近乎一片荒漠。“网上能找到的高质量老挝语数字文本不足10GB。”郭泉对当时的困境记忆犹新,“对于一个需要‘几十万本书量级’数据喂养的大模型来说,无异于用一桶水去浇灌整片田地”。

海量珍贵纸质文献的数字化难题更突出:通用OCR技术对老挝语识别准确率一度仅30%-40%,更棘手的是跨学科壁垒——人工智能师生不懂小语种,语言教师不通编码,老挝文字符的电脑编码组合规则,成了双方共同摸索的“谜题”。

一场跨学科攻坚战就此打响!

依托学校小语种研究深厚底蕴,广西民族大学迅速组建跨学院团队:东南亚语言文化学院的语言专家定义规则、校验质量,人工智能学院的技术专家专攻算法攻关,人工智能专业学生也埋头钻研老挝文字构成规律。经三个月反复调试,团队自主研发的老挝语OCR工具将识别准确率提升至80%以上,远超行业水平。

这把“钥匙”开启了海量语料数字化大门,缅甸练习册、泰国法律文本、越南新闻报道、老挝文学作品等实体资源,源源不断转化为AI可用数据,覆盖七种东盟主要语种的多模态语料库初具规模。

“语料质量直接决定模型效果,既要拼数量,更要保质量。”东南亚语言文化学院缅甸语教师陈宇点明了核心原则。为了获取纯正的缅甸语语音,用算法筛选优质样本,他们请来8位缅甸留学生,在专业的录音棚里,一句一句地录制、校对。这8名学生,后来创下了一个月完成80小时高质量语音录制的纪录。

广西民族大学语料库加工团队正在工作。学校供图

资源网络也随之铺开,从校园延伸到老挝、泰国、越南、马来西亚等国的顶尖学府。高校深度合作,共建联合实验室、联合研发大模型,构建多层次国际协同网络,保障语料的本土化与高质量。目前,语料库已收录海量文本、音频、视频资源,为模型训练夯实基础。

积累语料的最终目的,是赋能千行百业。团队精准对接多元需求:针对影视剧出海热潮,收集超2000万条双语字幕,计划训练专用翻译模型、搭建高效平台;跨界建成的法律双语平行语料库,成为“中国—东盟法律大模型”核心,衍生的AI法律智能体已成功辅助南宁国际商事法庭调解跨境纠纷,尽显实效。

于是,当中国—东盟自由贸易区国际商事法庭那场榴莲纠纷陷入僵局时,由这些历经“千锤百炼”的语料所支撑的系统,才能像一枚精准的砝码,瞬间打破平衡。

“不仅为涉外纠纷调解提供高效精准的法律支撑,提升跨境商事调解的专业性与说服力,更以数字化方案为优化中国—东盟经贸合作法治环境提供了可复制经验。”有专家这么点评。

2022年11月,广西民族大学牵头成立了中国—东盟语言服务协同创新中心。人工智能学院院长葛丽娜说:“我们的目标,就是要破解中国与东盟经贸合作中的语言服务瓶颈,以现代技术提升跨境产业链协作效率。”

人才后备力量也逐渐强大。“高年级本科生和研究生通过参与语料库项目,逐渐掌握语料清洗、质检等技能,成了就业市场上的‘香饽饽’。不少学生进入科大讯飞、中国—东盟信息港等企业参与语料库相关工作,得到企业好评。”东南亚语言文化学院院长覃秀红既欣喜又自豪。

如今,从语料标注平台、精细化翻译系统,到集成AI翻译的“阿育词典”,一系列工具正在让这条“语言丝路”变得通畅。

故事二

这位AI医生,何以精通多国语言

第22届中国—东盟博览会现场,中外客商在一个特殊的“展位”前驻足。

一位身高1.27米、身披白大褂的“医生”正在接诊。当越南客商用母语描述腰部不适后,不一会,清晰的越南语答复便从“医生”处传来,分析了可能的原因并建议了检查方向。

这位不会疲倦、能说多种语言的“医生”,正是广西医科大学带来的AI医生机器人。它的亮相,不仅是一场展示,更像是一份宣言——广西高校的医学智慧,正借由人工智能,打穿横亘在中国与东盟之间的医疗语言壁垒。

2025年,在第22届中国—东盟博览会(主题展)上,广西医科大学第一附属医院正式发布全球首款支持东盟小语种的AI交互式医疗专科数字人——“泌语医谈”智能体。学校供图

研发的种子,早在临床的阵痛中就已埋下。

“翻译失真,可能意味着误诊。”广西医科大学护理学院院长、第一附属医院副院长程继文对跨境医疗中的语言困境有切肤之感。“传统模式下,医患依赖翻译转述病情,医学术语难以精准传递;通用翻译工具缺乏医学语境适配能力,无法支撑专科诊疗逻辑。”他说。

团队的初衷变得无比清晰:必须创造一个能理解医学、精通语言、具备专科医生思维的数字生命。

打造这样一个数字生命,始于四年前一次奔赴。彼时,身为外科医生的王富博还在上海,身处国内顶尖的医疗圈,但他敏锐地感知到,广西在中国—东盟医疗合作中的枢纽位置,将为医学AI提供独一无二的场景与使命。他毅然南下,加入程继文麾下,组建了一个20多人的科研团队,开始了另一场从零开始的“创业”。

广西医科大学展示AI医生机器人。学校供图

AI医生的“灵魂”,在于其高质量、专业化的语料库。

市面上很多小语种语料库都是通用型的,遇到专业术语可以说是“不堪一击”。如何破解这一难题?

没有捷径可走,他们创造了独特的“三步法”来锻造这个灵魂:创新采用“基础语料库+专业术语定制”模式,通过“专业知识学习—场景实战训练—人机对抗测试”三步法构建语料库。该库汇集诊疗指南、专家共识及自编教材,经数百个真实病例训练和上万次中外专科医生纠错,最终形成了高质量语料数据资产。

最大的挑战之一,还要解决多语言术语的“对齐”问题。一个专业词汇,如何找到它在最精准、最地道的对应说法?为此,他们找到了越南籍博士生范忠孝。在录音棚里,范忠孝面对长长的医学词列表,一个词一个词地斟酌、确认、录制。“有时为了一个术语的译法,我们需要查阅多本医学辞典,并咨询河内医学院的教授,确保万无一失。”这个过程,催生了全球首个东盟多语种医学术语对齐引擎,其核心语料库也获得了专利。

“智眼、净源、译瞬通”三大核心技术发布。学校供图

历时两年攻坚,“泌语医谈”智能体诞生,它成为国内首个能模拟专科医生诊断逻辑的医疗数字人。同年9月,它进化成为全球首款支持东盟多语种的AI交互式医疗专科数字人。

该系统由“智眼”数据监测中心、“净源”图数据库清洗平台和“译瞬通”同声传译三大核心系统构成,形成数据处理、信息清洗、多语言交互的完整闭环。“智眼”作为“数字大脑”实时监测对话质量,保障服务稳定;“净源”平台深耕医学知识图谱清洗,从源头提升AI专业性;“译瞬通”则实现语言破壁,使用者扫描二维码即可在手机端获取母语翻译内容。

其知识体系,则源自程继文主编的120万字泌尿外科临床案例丛书,覆盖387种典型疾病,经多学科专家联合训练,已支持中、英、越三种语言,未来将拓展泰语、老挝语等东盟语种,可精准回应肿瘤、结石等五大亚专科咨询,这推动了跨境问诊从“能用”向“好用、管用、智能用”升级。

在自主建设的专科“语料库”支持下,泌尿科的成功模式正在多个专科迅速复制。近日,该校“AI中医体质辨识机”成功出海,在尼日尔、马来西亚、泰国试点推广;药学院与第一附属医院联合上线数字人药师应用场景,实现对门诊、出院患者全生命周期药学管理与服务;药学院借助AI活性筛选技术,将传统创新药研发周期从3至5年压缩至1至1.5年,大幅提升研发效率。

尼日尔群众在体验AI中医体质辨识服务。广西医科大学第一附属医院供图

数字看成果

广西高校在人工智能语料库领域的突破并非个例。语料库建设在数字时代蓬勃发展,展现勃勃生机。

500万:广西师范大学出版社“中华传统文化东盟多语种平行语料库建设及应用”项目,已完成500万汉字词对的精标平行语料建设,涵盖哲学、文学、艺术等多个领域。

300多GB:广西大学人工智能学院已收集300多GB语料,涵盖菲律宾、新加坡、越南、泰国等东盟国家,不仅收集文本、语音、视频等多模态数据,还重点构建东盟文化对接知识图谱。

75%~80%:广西民族大学科研团队攻克泰语、老挝语、柬埔寨语等语种的OCR(光学字符识别)技术难题,将识别准确率提升至75%~80%,并自主研发完成老挝语大模型的中老双语微调训练,推出系列东南亚语言翻译软件。

300小时:广西外国语学院率先实现东盟7门非通用语种全覆盖,积累泰语、越南语语音数据各近300小时,其他东盟小语种语音数据近30小时。

(广西云-广西日报记者黄玲娜、罗丹/整理)

记者观察

从有到优,语料库建设要迈多少坎

一副看似普通的眼镜,仅重61克,却能实时翻译、AI交互,自带138种语言实时翻译,东盟小语种识别率达90%……第22届中国—东盟博览会上,一副看似普通的黑框眼镜被客商们争相试戴。

创造这副眼镜的迈越科技公司副总经理黄有章,就站在几步之外。这一幕,让他想起8年前在凭祥口岸看到的景象:中越商户们涨红了脸,用手势比划着水果价格,交易在计算器的“滴滴”声和含混的单词中进行。“那时我就想,要做出能戴在脸上的翻译工具。”他回忆道。

这副惊艳东博会的眼镜,背后远非一家企业的技术突破。

黄有章展示AI智能眼镜 。权晟 摄

“以前,寻找东盟小语种非通用语料,如同在沙漠中寻水;如今,高校、企业、政府三方拧成一股绳,数据池越积越满、质量越来越高。”广西翻译协会副会长温家凯在接受采访时如是感慨。

广西的语料库建设何以起势?从有到优,还要迈过多少坎?

从“为什么是广西”到“广西如何做”

“语料库绝不是单纯的‘数据仓库’,能切实解决实际问题才是核心。”广西大学人工智能学院副院长蒙祖强的观点,道破了广西建设语料库的起点:强烈的现实需求驱动。

边境贸易的窘境、跨境医疗的风险、商事纠纷的僵局,这些具体痛点,成为倒逼语言数据建设的动力。但真正让广西得以蹚出一条路的,是独特禀赋与务实路径。

“其他省份可能更多依赖文献,而我们能直接在边境、在东盟,采集到鲜活、地道的语料。”黄有章认为。超过1.2万名东盟留学生和密集的小语种专业,为这座数据池提供了源源不断的活水。

“我们不需要一味追求最前沿的技术,更需要‘好用、便宜、适配本地需求’的实用技术。”广西民族大学的郭泉老师坦言。例如,他们攻坚三个月,将老挝语的文字识别准确率从30%多提升至80%以上。这项“够用就好”但关键的突破,立刻盘活了海量纸质文献。

政策精准滴灌,更为语料库建设按下快进键。

2026年,自治区印发广西深入实施“人工智能+”三年行动方案,明确提出“加快实施高质量语料库建设工程”;自治区教育厅将语料库建设纳入高校学科评估核心指标,给予招生计划与科研经费双重倾斜;南宁、柳州等地创新推出“语料券”“算力券”补贴政策,企业与高校合作可申领最高100万元补贴,有效激发了协同共建活力……

“若没有‘人工智能+’行动方案的精准扶持,我们的语料库或许仍停留在理论构想阶段。”一位业内人士感慨。

黄友章介绍迈越科技东盟语料库管理平台。记者 黄玲娜 摄

从“数据荒漠”步入“数据丘陵”

当然,“并不是所有语种都能建立语料库。”广西医科大学王富博教授表示。

他以广西本土方言为例作了分析。据他介绍,广西的壮语语料库资源极度稀缺,目前尚无一本权威的壮语医学词典可供参考。“更何况,广西不仅有壮语,也有粤语和各种方言,而要建立某种语料库必须具备语言和文字两个条件,这便是本土特色语料建设的困境。”

因此,尽管广西人工智能语料库建设成果初显,但前行之路并非坦途。受访者的一个共识是:广西正从“数据荒漠”步入“数据丘陵”,从“有没有”迈向“好不好”,挑战更为复杂。

调研表明,广西高校语料库存在明显短板,主要体现在三个方面:质量上,通用语料占比偏高,专业语料匮乏,东盟小语种语料中日常对话类超60%,医疗、法律等专业领域占比不足20%;范围上,越南语、泰语等主要语种布局较全,文莱语、东帝汶语等小众语种近乎空白;形式上,文本语料为主,语音、视频等多模态语料占比不足15%。

“我们曾经采集过一段老挝语工程机械维修视频,仅差旅费就数万元,还未必能获高质量素材。”广西科技大学人工智能学院的一位老师介绍,该校为收集100小时的泰语机械维修视频,耗时8个月、投入超40万元,高成本与高难度让多模态建设举步维艰。

更棘手的是语料标准化不足,各高校标注规则各异。“我们曾想引用某大学的越南语医疗语料,因标注规则不同需重新加工,成本高、效率低,最终只能放弃。”广西外国语学院人工智能学院院长钟明辉无奈表示。

“缺乏相关国家本土人员支持,公开语料多被大公司垄断,语音语料难辨有效信息等,都加剧了采集难度。”蒙祖强补充了语料获取难点。

如何构建能自我生长的生态

“首要任务,是‘立标准、通血脉’。”多位受访者呼吁,必须尽快从建设具体项目,转向构建一个能自我迭代、良性循环的生态系统

一方面,是复合型人才的培育。“‘东盟小语种+AI’复合型人才招聘难,要么懂小语种缺AI技术,要么懂AI不懂小语种,供需错配突出。”黄有章介绍,迈越科技的情况反映了行业普遍困境。

调研显示,广西高校语料库建设面临师资、学生“两缺”难题。具备东盟语言、AI技术与行业知识的教师不足50人,多依赖外聘专家;“人工智能+小语种”专业年均毕业生仅300余人,且60%以上流向发达地区,人才流失严重。

针对人才短板,区内高校纷纷创新模式。例如,广西民族大学设实验班、广西医科大学开微专业、广西外国语学院开发特色课程;不少高校依托“广西人才计划”引进高端人才,搭建校企联合培养基地实现就业无缝衔接。

另一方,需要协同创新破局,激活语料库生态效能。“单所高校的资源与能力有限,唯有抱团发展、协同发力,才能把语料库做大做强、做深做精。”广西民族大学人工智能学院院长葛丽娜提出的观点,也是广西高校的普遍共识。

针对校际、校企间的“数据壁垒”与安全顾虑,广西搭建起“高校牵头、企业参与、政府协调、东盟合作”的多元协同机制。

校企合作中,广西科技大学与五菱汽车共建“汽车术语语料库”,3个月内完成5000条车载越南语术语标注;跨境合作上,广西高校已与东盟160余所高校建立合作,联合研发小语种大语言模型、校准医疗语料。技术层面,聚焦东盟小语种特性,开发“东盟小语种智能预标注系统”,依托柳州东盟智算中心提供50%算力补贴。

“我们不仅要追赶前沿技术,更需要‘好用、便宜、适配本地需求’的实用技术。”广西民族大学老师郭泉建议。

“语料库建设不是短跑,而是久久为功的马拉松。”专家一致表示,校、企、政协同发力,才能让语料库真正“用得好”,为广西AI产业发展、东盟多语种合作筑牢根基。



扫一扫手机上查看当前页面