平台介绍
如是古籍数字化工具平台是由北京如是人工智能技术研究院打造的开放式古籍数字化系统,由古籍OCR、自动标点、标点迁移、多文本比对等工具套件组成。
平台网址 https://guji.rushi-ai.net:800 (海外镜像网址https://guji.world.rushi-ai.net )
(一)古籍OCR工具:古籍图片文字识别及校对
功能一:用户上传古籍图片到系统,系统调用人工智能OCR引擎对图片进行文字识别。
功能二:用户可以对识别结果进行文字校对,系统提供“按列校对”和“按页校对”两种校对模式。
功能三:如果用户发现自动识别有字符检测(漏框、多框或者切错)或者字序(文字顺序)的问题,可以在“切分校对”页面对字框和字序进行修改。系统提供了丰富的可视化人机交互,可快速定位问题。
功能四:用户上传的所有图片和识别结果统一在“我的图片”中进行管理,并且可以将识别结果存储为.json文件进行“导出”。
(二)自动标点工具:古籍文本自动标点
功能一:用户提交待标点的古籍文本到系统,系统调用人工智能自动标点引擎对文本进行标点,系统提供“现代标点”和“句读”两种标点方式,并支持标点结果的保存和复制。
功能二:用户保存的所有文本和标点结果都可以在“我的标点”中进行查看、更新、删除等管理。
(三)标点迁移工具:已有标点迁移至另一文本
功能:针对两份相似文本,一份有标点一份没有标点的情况,用户可以将一份文本的标点符号迁移至另一份文本,并将迁移结果复制导出。
(四)多文本比对工具:多份相似文本的差异比对
功能:用户可以对多份相似的古籍文本进行比对,并将比对结果复制导出。
平台使用规则:个人用户
用户注册后,即成为平台的普通用户,可以免费使用平台的所有工具;
对于古籍OCR工具,普通用户每日免费识别的不超过10张图片,累积识别不超过300张图片;
对于自动标点工具,普通用户每日免费处理字数没有限制,但累积处理字数不超过10万字(不含标点);
对于标点迁移和文本比对工具,原则上没有字数和次数限制。
如果需要处理更多的图片或文本,请与我们联系申请成为会员用户。
平台使用规则:团队用户
如果您是一个机构或组织,请跟我们联系,进行团队用户以及团队管理员的设置。团队管理员可以对整个团队用户、图片及标点数据进行管理。
团队管理员还可以将数据指派给团队其他人,从而实现分工协作。
对于特殊版面及大批量古籍数字化业务,如是研究院还提供更专业的数字化生产平台解决方案,可实现聚类校对、全流程质量管控等功能。
期待与您共同推进古籍数字化事业!
欢迎联系我们
如是研究院邮箱:rushi_ai@qq.com
如是研究院企业微信:
如是研究院微信公众号: