NPU上部署ASR流式输出搞定了想集成说话人分离怎么操作呢？

想实现说话人分离的流式ASR，类似与会议记录一样，想处理paddlespeech 流式ASR的ws协议给过来的缓存然后调用一个说话人分离模型再走ASR，但是代码能力有限暂未实现？请问这个思路可行么或者还有其他的方法？望大佬们给给建议