Skip to content

Files

Latest commit

 

History

History

pku98

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

1998人民日报语料1月份

简介

北京大学计算语言学研究所和富士通研究开发中心有限公司,得到人民日报社新闻信息中心的许可,从1999年4月起,共同制作1998年全年2600万汉字的「人民日报标注语料库」。这项大规模的语言工程预计将在2002年4月底以前完成。 为了促进这个集中了众多专家智慧的「人民日报标注语料库」的广泛使用,为中文信息处理的发展作出实际的贡献,同时也为了进一步完善这个标注语料库,北京大学、富士通及人民日报社三方决定首先在大学、研究所等限定的范围内,从2001年8月28日起,有偿公开现已完成的1998年上半年的「人民日报标注语料库」(约1,300万字=约730万词)。公开范围将逐步扩大。计划明年公开1998年全年的「人民日报标注语料库」。为了便于人们了解「人民日报标注语料库」,三方还同时在各自的网站上免费公开1个月的「人民日报标注语料库」,欢迎广大研究人员自由下载。 据了解,半年「人民日报标注语料库」的光盘由人民日报新闻信息中心负责销售,1300万字高质量的现代汉语标注语料库的售价只有人民币2000元。

来源:http://www.fujitsu.com/cn/about/resources/news/press-releases/2001/0829.html

改进

本目录下的199801.txt在原版的基础上做了如下修改:

  1. 为了符合习惯,姓+名合并为姓名
  2. 格式升级为兼容2014版,复合词中括号后添加“/”
  3. 文本编码调整为UTF-8

版权

版权方

  1. 北京大学计算语言学研究所
  2. 富士通研究开发中心有限公司
  3. 人民日报社新闻信息中心

授权

根据官方简介,仅限研究目的。