Skip to content

Software, models and codes of the Chinese Intangible Cultural Heritage Text Automatic Segmentation System (CITS)

Notifications You must be signed in to change notification settings

hsc748NLP/CWS-of-ICH-Texts

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

中国非物质文化遗产文本自动分词软件

提供了交互式的可视化GUI界面,可调用经过领域微调(Fine-tuning)的传统机器学习模型(CRF)与前沿预训练模型(RoBERTa),实现对中文国家级非物质文化遗产项目申报文本及其他非遗相关文本的自动分词。

提供了可直接运行的.exe文件和Python源码,两种方式均可实现本地运行。

获取途径:

网盘地址:链接:https://pan.baidu.com/s/1B1kMlnKaJ3TpDlmB0KYQeg 提取码:p3l8

①对于.exe可运行版本,从网盘任意下载ICHAutoWordSegGUI.7z或ICHAutoWordSegGUI.zip压缩文件。

②对于python源码版,先下载本项目SourceCodes源码,再从网盘下载roberta_6文件夹并覆盖项目源码中同名文件夹。

使用方法:

①对于.exe可运行版本,解压后,双击ICHAutoWordSegGUI.exe运行。

②对于python源码版,根据environment.yml配置运行环境后,执行python ICHAutoWordSegGUI.py运行。

图文示例:

软件操作图文示例参见研究论文《数字人文视角下的非物质文化遗产文本自动分词及应用研究》,图书馆杂志,2022。

联系我们:

[email protected]

About

Software, models and codes of the Chinese Intangible Cultural Heritage Text Automatic Segmentation System (CITS)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages