Более трех лет назад, когда я еще играл с Sovits, модель звука требовала разделения (удаления фонового окружения) для получения чистого голоса перед обучением.


Затем нужно было провести отбор данных, убрать части с сильным фоновым шумом, и начать обучение.
Обычно обучение длилось около 8000 шагов, при этом качество восстановления звука было наилучшим; если превышать 8000 шагов, а оценка оставалась ниже 25, то этот набор данных и обучение становились практически бесполезными.
Если же продолжать обучение до более чем 14000 шагов, возникал так называемый «расход», что в итоге приводило к тому, что полученный звук был либо «сильно искаженным электросигналом», либо «человека и призрака не отличить».
Здесь похоже на этапы разработки квантитативной торговли? Процесс извлечения чистого голоса — это поиск данных для машинного обучения и предсказательной модели, удаление шумов — это отбор неэффективных рыночных данных (например, резкие скачки за 1 минуту).
Обучение на 8000 шагов не вызывает сильного переобучения, а при обучении до 14000 шагов «расход» (сильное переобучение) в конечном итоге делает результаты похожими на игру в орлянку.
Хотя мы и не в одной области, но базовая логика схожа.
Может ли случиться так, что в будущем нас победят не представители самой отрасли, а люди из других сфер, случайно или намеренно перешагнувшие границы — сказать трудно...
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить