위스퍼(Whisper) AI로 자동 번역 자막 만들기, 쓸만할까? (1)
번역,콘텐츠,뉴스 | 2023.08.09

위스퍼(Whisper) AI로 자동 번역 자막 만들기, 쓸만할까? (1)

마케팅팀

요즘 난리 났다는 위스퍼(Whisper)? 그게 뭔데?!

STT(speech to text) 기술을 아시나요?

말 그대로 음성을 텍스트로 옮겨주는 기술을 뜻하는데요, 해당 기술은 오래전부터 연구되어온 인류의 숙제(?) 같은 것이라고 보시면 됩니다. 이 음성 인식이라는 게 사람마다 말투나 성조, 발성도 제각각이고 주변 환경음이 섞이면 인식률이 처참해지기 때문에 그동안 높은 정확성을 가진 STT는 아직 구현이 어렵다는 것이 학계의 정설이었죠.

하지만 최근 몇 년간 Chat GPT의 공개와 함께 AI 기술에 특이점이 찾아오면서, 딥러닝이 STT 기술에도 큰 영향을 미치게 됩니다. 그래서 나온 것이 바로 OpenAI사의 Whisper(이하 위스퍼)입니다.

위스퍼는 2022년 9월 OpenAI 사에서 공개한 STT(speech to text) 인공지능 모델입니다. OpenAI에 따르면 위스퍼는 웹에서 수집한 68만 시간 분량의 방대한 자료를 토대로 전 세계 수십 개의 언어와 데이터를 학습했으며, 무수한 음성인식 훈련을 통해 특이한 악센트나 어눌한 말투도 잘 인식하고 시끄러운 소음 속에서의 대화 또한 훌륭하게 구분할 수 있다고 말했습니다.

게다가 OpenAI는 상남자답게 이를 무료로 github에 공개했는데요, 아쉽게도 개발 지식이 어느 정도 있어야 해당 모델을 사용할 수 있다는 허들이 있었습니다.
그러나 최근 국내 개발자분들이 이 위스퍼를 일반인들도 쉽게 사용할 수 있도록 web-ui(웹 브라우저를 통해 프로그램을 조작하는 인터페이스)화 시켜주신 덕분에 커뮤니티에서 엄청난 화제를 일으켰습니다.

그러자 어떻게 되었을까요?

예상대로(?) 네티즌들은 우선 성인물 영상들로 위스퍼의 성능을 테스트하기 시작했습니다. 그동안은 성인물 자막에 대한 수요는 많은 반면 공급이 굉장히 제한적이라 알음알음 자막 카페에서 자막 수급을 해왔기 때문이죠. 일부 유저들은 “게임 체인저가 나타났다” 고 평가하기도 했고 “그래도 수작업으로 손봐야 할 것들이 많다” 고 실망을 드러낸 유저들도 있었습니다.

위스퍼로 특정 영상 STT를 시도한 한 유저의 당황한 모습.jpg

위스퍼의 기능을 테스트해 본 네티즌들은 놀라움을 금치 못했는데요, 바로 몇 시간짜리 영상의 언어를 단 몇 분 만에 타임라인이 찍힌 텍스트 파일로 추출할 수 있다는 것이었습니다. 그것도 아주 정확하게요!!
심지어 “음…” “어…” 또는 “그...” 같은 불필요한 단어는 알아서 제외하고 추출하기까지 한다고 합니다. (성능 확실하구먼)

현재 많은 유저들이 기대하는 위스퍼의 활용법은 이렇습니다.

기대하는 것
👉 특정 영상을 위스퍼에 집어넣는다 → 자막 파일을 쉽게 추출 → AI 번역으로 번역한다 → 한글자막 완성!

효과
✅ 와! 기다리지 않고 빠르게 쏟아져 나오는 대량 생산 자막!!
✅ 와!! 뜻을 알고 보는 수많은 영상들!!
✅ 와!!! 게다가 모든 공정이 무료라고??

그동안 영상 콘텐츠의 번역 자막을 얻으려면 직접 노동을 하거나 돈을 쓰거나, 둘 중 하나를 무조건 해야 했습니다.

1. 직접 영상을 보며 전사 작업(음성을 텍스트로 옮기는 작업)을 진행, 또는 이를 대신해 주는 유료 서비스 이용.
2. 추출한 텍스트 파일을 직접 번역기 돌리거나, 번역가에게 유료 서비스 이용

그런데 이 번거롭거나 돈을 주고 해야 하는 과정을 이제 누구나 무료로 손쉽게 한다?!

즉시 이 소문은 커뮤니티로 널리 퍼지게 되었고, 이는 콘텐츠 제작을 하는 유튜버나 각종 방송사, 프로덕션, 강의 업체 등등 영상 번역 자막을 필요로 하는, 이 글을 읽고 계신 여러분의 귀에까지 들어가게 된 것입니다.

아마 이런 생각을 하고 계시겠죠.
위스퍼 쓰면 굳이 돈 주고 영상 번역 자막 맡길 필요가 있나?
음성 인식 성능도 미쳤다던데? 전사 작업 한큐에 해결 ㅋㅋ
번역?? 막내한테 AI로 번역 시키면 공짠데?ㅋㅋ



위스퍼에 대해 자세히 알아보자

자, 서론이 길었죠? 지금부터는 본론입니다. 집중 부탁드립니다🙏
지금부터는 저희 자메이크의 트래픽을 자꾸 뺏어가는 꼴 보기 싫은 위스퍼가 여러분의 콘텐츠 번역 자막 작업에 그다지 큰 도움이 되지 못한다는 사실을 알려드리겠습니다.

중립기어 박았습니다.gif

아, 물론 대단히 중립적인 스탠스를 유지하고 쓸 테니 걱정하지 말고 편하게 읽어 보시면 됩니다.
우선 위스퍼가 얼마나 대단하길래 난리가 났는지 위스퍼의 장점부터 한번 정리해 보았습니다.


위스퍼 난리 난 이유. 장점 1 : 68만시간 분량의 방대한 학습 시간과 한국어 지원

위스퍼의 언어별 학습시간. 한국어는 무려 8,000시간 학습했다.
(출처 : https://openai.com/research/whisper)

딥러닝 AI의 특성상 어떤 데이터를 얼마나 학습시켰느냐에 따라 성능의 차이가 많이 난다는 것은 대부분 알고 계실 텐데요, 위스퍼의 경우 무려 68만 시간에 이르는 다양한 언어 데이터 셋을 활용하여 학습했다고 합니다. 그중 한국어가 약 8,000시간으로 영어를 제외하고는 7번째로 많은 양의 데이터를 학습했다고 하네요. 그러서인지 한국어의 인식에도 뛰어난 성능을 보여주고 있다는 평가를 받고 있습니다.



위스퍼 난리 난 이유. 장점 2 : 다양한 조건에서도 높은 음성 인식률

위스퍼는 수많은 음성 데이터 셋을 반복적으로 훈련한 결과, 놀라울 만큼의 정확성을 보여준다고 하는데요, 일상적인 대화 상황부터 속삭이는 소리, 음악, 감정이나 특정한 억양의 대화 등에서도 준수한 성능을 보여주고 있다고 합니다.

위스퍼의 WER(Word Error Rate) 수치. 한국어는 14.3%의 오류율을 보이고 있다.
(출처 : https://openai.com/research/whisper)

위 표는 위스퍼 깃허브(Github)에서 공개한 각 언어별 에러율 수치입니다. 수치가 낮을수록 에러율이 낮은 것이며 한국어는 약 14.3%의 에러율을 보이고 있습니다. 그럼에도 불구하고 이는 현존하는 기존 STT 프로그램의 성능을 상회하는 수치라고 하니, 사람들이 열광할 수밖에 없는 것이겠죠?


위스퍼 난리 난 이유. 장점 3 : 누구나 지금 당장 쓸 수 있다.

OpenAI 사는 Chat GPT를 공개하면서 누구나 무료로 쓸 수 있게 (물론 일부 기능, 최신판은 유료이긴 합니다만) 오픈해버렸었는데요, 위스퍼의 경우에도 역시 상남자답게 당당하게 오픈을 해놓았습니다. 다만 해당 모델을 직접 구동하려면 개발 지식이 어느 정도 필요한 상황이었는데, 몇몇 개발자분들의 노력으로 우리 일반인들도 위스퍼 모델을 사용할 수 있게 되었습니다. 그러자 역시 발 빠른 한국인들은 이것저것 테스트해 보면서 위스퍼를 어떻게 설치하고 사용하는지 영상을 올리기도 하고, 사용 후기를 올리기도 하는 등 활발한 위스퍼 검증을 진행하고 있습니다.

위스퍼를 어떻게 활용하는지 친절하고 자세히 설명해놓은 한 유튜브 채널.jpg (채널명 : 타이탄)

조회 수 보이시나요? (부럽)
유튜브를 찾아보시면 금방 아시겠지만, 위스퍼를 사용하면 정말 빠른 시간 안에 영상의 음성을 텍스트 파일로 추출하는 모습을 볼 수 있습니다. 게다가 몇 기가짜리 영상을 올리는 게 아닌 음성파일만 추출한 mp3 파일을 올리면 훨씬 빠르다는 꿀팁들이 공개되면서, 실제로 몇 시간 짜리 영상에서 음성 타임라인이 찍힌 텍스트를 추출하는 것은 이제 너무나도 쉬운 작업이 되어버렸습니다.

자, 그럼 이 놀라운 STT 성능을 보이는 위스퍼를 사람들은 단순 취미용(?) 영상에만 활용할까요?
아니죠! 이 글을 읽고 계시는 여러분들처럼 자신, 또는 회사의 영상 콘텐츠의 자막을 위스퍼로 해결할 수 있지 않을까? 하는 생각을 당연히 하실 겁니다.
생각대로만 된다면 콘텐츠 제작과 자막 처리 작업 과정에서 큰 산 하나가 그것도 공짜로 해결되는 것이기 때문이죠.


위스퍼, 실무에 쓸 수 있을까?

기존 콘텐츠 번역 작업은 위와 같은 순서로 이루어졌습니다. 모든 작업에 비용이 발생하거나 또는 직접 해야 하는 리소스 투입이 필요했죠. 하지만 위스퍼를 잘 활용한다면 아래와 같은 모습이 되지 않을까 상상하고 계시진 않나요?

무려 작업 앞단의 프로세스인 전사 작업과 자막 작업을 무료로 빠르게 해결할 수 있다니!?

위스퍼, 도댁체 외않써?


당장 해야 할 것 같은 생각이 드신다면 잠시 멈추고 이 글을 끝까지 읽어주시길 부탁드립니다.
사실 저희 자메이크는 결코 이 방법을 권해드리고 싶지 않습니다. 언뜻 보면 여러분의 수고로움을 획기적으로 줄일 수 있을 것 같지만 기대하는 것만큼 드라마틱한 효과를 보기엔 어렵거든요.
위스퍼가 왜 아직은 설레발인지 다음 회에서 자세히 알려드릴게요.







잠깐! 자메이크가 처음인가요? 첫 자막은 반값에 달아보세요! 신규 가입자 쿠폰팩 증정!

Clickable Image
ai
whisper
번역자막
위스퍼
top arronw iamge

연관콘텐츠

유튜브 MAU 1위 달성 코앞에, 지금은 유튜브 천하(2)
구독자 늘리는 법, 알아두면 쓸모 있는 유튜브 꿀기능 1탄🍯
ChatGPT, Bard, Bing(Copilot) 비교 (언제 무엇을 써야하나?)
고객센터
10:00 ~ 19:00
점심시간 12:30 ~ 13:30
주말 및 공휴일 휴무
이메일 help@voithru.com
전화 문의 02-6205-7812
1:1 채팅 문의
제휴 및 채용문의
일반 채용 문의 recruit@voithru.com
번역가 채용 문의 vendor.hr@voithru.com
기업 번역 문의 jamakesales@voithru.com
사업 제휴 문의 jamakesales@voithru.com
faceBookIconinstaIconyoutubeIcon
logo
주식회사 보이스루
서울특별시 강남구 강남대로 374 케이스퀘어강남2 10층
대표자 : 이상헌
사업자 등록번호 : 342-88-01221
사업자등록정보확인
통신판매번호 : 2022-서울강남-05197
주식회사 보이스루
서울특별시 강남구 강남대로 374
케이스퀘어강남2 10층
대표자 : 이상헌
사업자 등록번호 : 342-88-01221
사업자등록정보확인
통신판매번호 : 2022-서울강남-05197
© 2025 Voithru Inc. All rights reserved.
이용약관
개인정보 처리방침
특정상거래