聚合数据完全纯净因为是人工专门录
制的音频嘛后面只需要和这个聚合类比对下是不是一个人就完了;同时可以设计各种发音场景或者发音质量校验标准比如百度地图录制一个自己的发音人就会校验音频信噪比音频质量文本匹配度等等总会提示音频质量不过关重录来让训练数据的质量变得无比高; 二预训练带来了什么变化 预训练首先是对于传统的监督学习的改变这种有史以来最高效的特征抽取器的广泛应用让通过共享预训练模型的参数连接起各个任务/的两种研究范式也就就此确立的。对于之前主要广泛受关注的是以为代表的“双向语言模型预训练应用”模式使得语言模型适应下游的任务基于预训练的思路模型更大了效果更好了各种人工智能的最终任务诸如完形填空目标检测关键要素抽取机器翻译自动摘要图像识别物品推荐等等均取得了不同程度的提升。从我的视角来看我对范式的模型理解是这样的 模型的通用性差虽然预训练让模型适应 马来西亚手机号码数据 下游任务但是实际上应用方面比较窄这个可能和这种范式与人类语言习惯的距离更远不如生成范式接近人类的表达和的训练数据也有相当大的关系。 预训练的信息输入量远高于以前的训练模式通过大量提高输入的方式必然会使得输出有提升。因为我理解算法本质是压缩输入已经从输入里总结归纳并且在输出端复现输入即使是生成式的算法也是这样例如大型语言模型加入可以使得结果的逻辑性和合理性更强。 数据和模型大小变化带来的收益较低原本效果上无法商用的一些方案和技术依旧无法商用。
https://lh7-us.googleusercontent.com/3VBq4jJjGcdHeKFivBlh03YkqeOwp0OyrZpidtFoyy7b-gZCigfK7Sv71reSwx3Ze7sDvXWe7Ic0qMUUV99wbwaMs1uVgAZtjgEj9YglFqPz0W1ysI_arTQ7c8LdMpsGvQnt_d4RaqxPmB0s
这个可能和模型本身的规模没有达到某个量级有关因为同样是双向的和在生成类任务上也取得了不错的效果本身就不具备这种场景能力不做谈论。 模型量级在指数上升且模型的规模扩张速度已经超过了摩尔定律的硬件性能提升速度也就是说就算抛开效果提升了多少来看成本的上升速度超过了收益成本的上升速度有些过快了。关于这一点虽然和都分别测试了模型量级和数据量的缩放法则来说明必要性但是成本上升却也是事实。 设计变革——大模型的设计方法 ,这篇综述文章很好的阐述了研究的范式发展思路到这一代的时候方式已经将任务调整到语言模型中进行实现而不是让语言模型适应下游的任务这种方式带来了相当多的变化。
頁:
[1]