Skip to content

AttributeError: PegasusTokenizer has no attribute vocab #474

@xiaofanku

Description

@xiaofanku

我想使用:IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1,模型进行文本摘要! 根据说明我将:tokenizers_pegasus.py 和data_utils.py复制到我的项目中并按装了需要的依赖. 当我运行示例时报错了: AttributeError: PegasusTokenizer has no attribute vocab

以下是我的代码:

    import torch
    from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast, AutoTokenizer
    from fsllm.tokenizers_pegasus import PegasusTokenizer
    device = "cuda" if torch.cuda.is_available() else "cpu"
    tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1") 
    model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1").to(device)
    
    text = """
微软近日宣布了一项关于Windows Server Update Services(WSUS)的重要变更决定,原本计划在2025年4月18日终止的WSUS驱动程序同步服务,现已被无限期推迟。WSUS作为微软为企业客户提供的核心更新服务,其中的驱动程序同步功能一直以来都深受IT管理员的喜爱。通过这一功能,管理员能够轻松地在整个企业内网中分发驱动程序,极大地简化了工作流程,避免了繁琐的单独操作。然而,微软此前曾多次向用户发出通知,表示将移除WSUS中的驱动程序同步功能,并力荐IT管理员转 向其更新的、基于云的驱动程序服务,如Windows Autopatch、Microsoft Intune以及Azure Update Manager等。这些服务旨在提供更加高效、便捷的驱动程序更新体验。对于这一变更,微软高级项目经理Paul Reed表示:“在观察到许多用户已经转向基于云的驱动程序服务后,我们最初提出了移除WSUS驱动同步的计划。但经过深思熟虑,并考虑到用户们,特别是在离线设备场景下的反馈后,我们决定修订这一计划。”回顾微软的这一决策历程,早在2024年6月,公司就首次宣布了将弃用WSUS驱动同步功能的决定。而在 同年9月,微软更是将WSUS列入了“从Windows Server 2025开始不再开发或已移除的功能”名单之中。这一系列动作曾一度引发了企业用户的广泛关注和讨论。此次无限期推迟的决定,无疑是对用户反馈的一次积极回应。微软在听取了用户的声音后,决定继续保 留WSUS驱动程序同步功能,以满足部分用户在当前及未来一段时间内对离线设备驱动程序更新的需求。
    """
    inputs = tokenizer(text, max_length=1024, return_tensors="pt")

    # Generate Summary
    summary_ids = model.generate(inputs["input_ids"])
    summary = tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
    print(summary)

以下是我的环境:

python == 3.10
torch == 2.6.0
transformers==4.51.1
numpy==2.2.1
os == window 11

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions