Skip to content

TernaryBERT如何实现模型size降低的 #238

@saggitarxm

Description

@saggitarxm

你好,看了您的论文和代码,word_embedding, q,k,v等weight采用了TWN的方式进行量化,但是TWN的量化方法其实是对weight的取值进行量化,weight的size还是32bit,并不是2bit,保存的模型size和原始模型是一样大的,推理的时间也不能降低,请问是哪里理解错了呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions