티스토리 뷰

728x90

「사람의 목소리를 자연스럽게 따라할 수 있는 기술」

직접 구현한 내용은 https://github.com/hccho2/Tacotron-Wavenet-Vocoder-Korean를 참고해 학습시켰습니다.

[이번 Tacotron프로젝트의 결과물입니다

자세한 정보나 많은 예제를 들으시려면 여기를 클릭해 주세요]

총 4명의 목소리를 학습시켰으며, 사용된 데이터 정보는 다음과 같습니다.

  • 캐글데이터 KSS        
  • 문재인
  • 친구1
  • 친구2

KSS 


  • 8322 Examples
  • 6.49 Hours Datasets
  • 666000 Step
  • Trained for 5 days
  • Total 29.8GB Used

문재인


  • 1083 Examples
  • 0.87 Hours Datasets
  • 678000 Step
  • Trained for 6 days
  • Total 30.4GB Used

친구1


  • 672 Examples
  • 0.54 Hours Datasets
  • 372000 Step
  • Trained for 3 days

  • Total 16.8GB Used

친구2


  • 1307 Examples

  • 0.94 Hours Datasets

  • 200000 Step

  • Trained for 3 days

  • Total 9.02GB Used


- 친구1의 목소리로 "안녕하세요"를 뽑아보았습니다. -

 

 

- 아래 사진은 librosa라이브러리를 이용해서 생성된 음성의 스펙트럼입니다. -

[Raw Spectrogram]

 

 

 

실행결과(목소리-친구1):

실행결과(목소리-KSS):


 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함