全球首个藏文搜索引擎“云藏”持续升级满足多种需求

11

青海海南9月16日电(祁增蓓)“我们正处于云藏大数据语料库的开发阶段,主要有分词语料库和汉藏双语平行语料库的开发,目的是提高信息检索系统的查全率和查重率,保证搜索结果的准确性。”15日,青海省海南州藏文信息技术研究中心自然语言处理研究所副所长航尖才让告诉记者。

云藏大数据中心相关工作人员介绍,云藏搜索是一个集新闻、网页、图片、视频、音乐、百科、文库、知道等搜索于数据库相结合的大型藏文综合网络平台,是国内各大藏文网站的统一入口,以及互联网藏文信息的主要来源和资源共享中心。

全球首个藏文搜索引擎“云藏”持续升级满足多种需求

云藏搜索采用当下最主流的算法,研制藏文自动分词与语言分析系统,建设大规模训练语料库,开发网页采集、全文搜索、内容管理模块、搜索网站前台、网络爬虫等系统架构建设,完成了网页搜索等多个应用系统的建设工作,全面实现了一个搜索引擎应具备的基本功能。

此外,云藏大数据中心联合业内人士共同研究,成功研发了藏文自动分词与语言智能分析系统,实现了藏文同义词搜索、藏文拉丁转写搜索、藏文拼写检查系统、藏文语义检索、藏文不同编码自动转换等功能,攻克了藏文智能信息处理的核心技术,并成功实现与搜索引擎系统的集成,使云藏搜索引擎有了本土化或藏语化的人工智能特点。

全球首个藏文搜索引擎“云藏”持续升级满足多种需求

“下一步,云藏大数据中心将搭建藏文互联网舆情监控分析系统,开展藏文信息的汇集整理和分析,把握网上信息舆论动向,全面了解社情民意,能够为有效解决藏文网络舆情信息监测难、掌控难、研判难的瓶颈问题提供可靠的参数与依据。”航尖才让说,他认为将来“区块链”技术将来也会在其中发挥很大的作用。

据悉,云藏大数据中心已申请获得《中国著名品牌》《网络文化经营许可证》,以及《云藏百科》《云藏文库》《云藏知道》《云藏视频》等6项计算机软件著作权,并向国家知识产权局申报了云藏搜索引擎系统、藏文词性标注系统和藏文分词系统三项发明专利且已通过初审,如今处于最终实质审查阶段。(完)

“被直播”如何维权?拒绝把不知情的消费者暴露在众目睽睽下

四川男篮主场不敌天津队

“留住”展商,进博会溢出效应不断放大

员工变股东?劳动关系认定该看啥

金羊网评:绘就流光溢彩美丽画卷 谱写奥运史上全新华彩乐章

湖北遭遇入汛以来暴雨范围最广降雨天气

全球战疫:90岁侨领李逢梧率崇仁医院与菲华共抗疫

利物浦球星若塔因车祸丧生:年仅28岁,十天前刚结婚

遵义转折何以实现

浙江秀洲儿童剧掀暑期新潮 家门口尽享“国家级”体验

新加坡外籍劳工中心主席:将尽力照顾好外籍劳工健康和生计

习近平在参加江苏代表团审议时强调 牢牢把握高质量发展这个首要任务

开创全球服务、互惠共享的美好未来

国家发改委:前11个月汽车出口居世界首位

河北警方通报白血病患者被诈骗:已对两人采取刑事强制措施

文章版权声明:除非注明,否则均为华夏经纬网原创文章,转载或复制请以超链接形式并注明出处。