多音字测试 #24

liroda · 2024-04-23T07:49:12Z

您好，实际使用中，大部分多音字预测效果还可以，对于多音字"厦"预测，这个特别容易出错，这几个句子都会读成xia4
通过西门来访者可以进入大厦。
沈阳皇朝万鑫国际大厦

请问这块是因为实际训练集的影响，还是其它原因呢？看论文实际训练多音字是432个，方便问下具体是哪些多音字吗？

GitYCC · 2024-09-09T15:24:34Z

因為這模型的讀音是以台灣念法為主，所以會稍有差別，建議可以自己改動規則去作mapping

liroda · 2024-09-10T06:36:13Z

这种情况的话用一些数据，做微调可以吗？

GitYCC · 2024-09-12T11:00:59Z

當然，如果有資料去finetune會更好

Provide feedback