北京大学计算语言学研究所和富士通研究开发中心有限公司,得到人民日报社新闻信息中心的许可,从1999年4月起,共同制作1998年全年2600万汉字的「人民日报标注语料库」。这项大规模的语言工程预计将在2002年4月底以前完成。 为了促进这个集中了众多专家智慧的「人民日报标注语料库」的广泛使用,为中文信息处理的发展作出实际的贡献,同时也为了进一步完善这个标注语料库,北京大学、富士通及人民日报社三方决定首先在大学、研究所等限定的范围内,从2001年8月28日起,有偿公开现已完成的1998年上半年的「人民日报标注语料库」(约1,300万字=约730万词)。公开范围将逐步扩大。计划明年公开1998年全年的「人民日报标注语料库」。为了便于人们了解「人民日报标注语料库」,三方还同时在各自的网站上免费公开1个月的「人民日报标注语料库」,欢迎广大研究人员自由下载。 据了解,半年「人民日报标注语料库」的光盘由人民日报新闻信息中心负责销售,1300万字高质量的现代汉语标注语料库的售价只有人民币2000元。
来源:http://www.fujitsu.com/cn/about/resources/news/press-releases/2001/0829.html
本目录下的199801.txt
在原版的基础上做了如下修改:
- 为了符合习惯,姓+名合并为姓名
- 格式升级为兼容2014版,复合词中括号后添加“/”
- 文本编码调整为UTF-8
- 北京大学计算语言学研究所
- 富士通研究开发中心有限公司
- 人民日报社新闻信息中心
根据官方简介,仅限研究目的。