반응형

안녕하세요. 오늘 포스팅은 AWS Amazon Polly(아마존 폴리) TTS 엔진을 이용하여 텍스트를 음성으로 변환하는 것에 대한 내용입니다.

VoIP 서비스를 운영하고 있는 저는 미디어 파일을 손쉽게 생성하기 위하여 Amazon Polly(아마존 폴리)를 선택하였는데요.

간단하게 음원을 생성하여 다운로드할 수 있는 장점이 있고, 설정 또한 간단합니다.

장점 및 주의사항

최대 3000 자까지 즉시 듣고 다운로드하거나 저장할 수 있습니다. 최대 100,000 자의 경우 작업을 S3 버킷에 저장해야 합니다.

 

 

 

아마존 폴리

https://aws.amazon.com/ko/polly/

 

Amazon Polly

오디오는 서면 및/또는 시각적 의사소통에 대한 보완적 매체로 사용될 수 있습니다. 콘텐츠를 음성화함으로써 청중에게 정보를 소비하는 대안적 방법을 제공하고 보다 광범위한 독자층의 요구를 충족할 수 있습니다. Amazon Polly는 12개 언어로 음성을 생성할 수 있으므로 글로벌 청중을 대상으로 RSS 피드, 웹 사이트, 비디오와 같은 애플리케이션에 간편하게 음성을 추가할 수 있습니다. 예: 기사를 음성으로 변환 후 MP3로 다운로드 Amazon Polly

aws.amazon.com


1. 기본 화면입니다. 다음과 같이 나오고요. 원하는 텍스트를 입력 및 미리 듣기, 포맷 변경, 언어 선택, 목소리 선택, 다운로드 등이 가능합니다.

  • Plain text에 원하는 멘트를 작성할 수 있습니다.
    • 최대 3,000자 (미리 듣기, 다운로드 가능)
    • 최대 100,000자 (S3 버킷에 저장)


 

2. 미리 듣기가 가능합니다

  • 위에서도 말했듯이 3000자까지만 미리 듣기가 가능합니다. (3,000자 이상 쓰기도 어렵겠네요)


 

3. 언어 선택

  • 국가별로 언어를 선택할 수 있습니다.


 

4. 목소리 선택

  • 원하는 목소리를 선택합니다.
  • 언어 및 지역을 한국으로 선택하면 한국사람의 목소리 선택이 가능합니다.
  • 미리 듣기를 통해 원하는 목소리를 선택하세요.


 

5. 파일 포맷 변경

  • 원하는 파일 포맷 및 샘플 레이트를 선택해줍니다.

 


 

6. 다운로드


다음에는 AWS S3에 음원을 저장하고, 서버에서 AWS로 upload, download 하는 CLI(커맨드 라인 인터페이스)에 대한 포스팅을 할 예정입니다.

누군가에게 도움이 되었기를...

반응형
블로그 이미지

yesnomark

이것저것 개발하며 애매하게 경력쌓고 있는 중니어 개발자

,