@matthew99a 我好像理解了,你的意思是不是,假如拿768去匹配,768语义非常接近但是音高差很多,可能就会匹配到音高距离目标音高差很多的训练集口型,然后后面模型强行把音高抬过去 我不太确定音高的度量和768维的度量是不是同样的尺度,就是说他们距离是不是就是简单的加上一维求距离就行 ...
ffmpeg读取路径带空格、()等特殊符号,可能出现ffmpeg error;训练集音频带中文路径,在写入filelist.txt的时候可能出现utf8 error; 一键训练结束没有索引 显示"Training is done. The program is closed."则模型训练成功,后续紧邻的报错是假的; 一键训练结束完成 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果