AI 음성인식 - End to End 음성인식 시스템에 대한 심화이해

스무니

개인인증 판매자스토어

최초 등록일: 2023.04.30
최종 저작일: 2021.04; 4페이지/ 한컴오피스; 가격 1,500원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

소개글

"AI 음성인식 - End to End 음성인식 시스템에 대한 심화이해"에 대한 내용입니다.

본문내용

어텐션 기반 Seq2seq 구조를 음성 인식에 적용한 논문이다.
당시에는 CTC (Connectionist temporal classification) 이 음성 인식 분야를 점유하고 있던 시절이였던 터라, End-to-End 방식으로 본 논문 모델과 같은 성능을 낸 것은 굉장히 혁명적인 일이였다고 한다.
본 논문 이후 Speech 분야는 CTC와 LAS로 나뉜다고 한다.

모델의 전체적인 구조는 Listener (encoder) 와 Speller (decoder) 로 이루어져 있다.
데이터의 피쳐를 입력받는 Encoder
입력 시퀀스 x를 High level feature인 h로 변형하는 역할을 담당한다
(더 의미있는 시퀀스로 변형한다)

리스너가 변형한 High Level feature인 h를 어텐션을 사용하여 문자로 출력한다.
(Decoder) 모델의 첫 번째 특징으로는 Pyrimidal Bidirectional LSTM을 사용했다.

참고 자료

없음

이 자료와 함께 구매한 자료

음성 인식의 원리 및 사용 - AI를 중심으로 7페이지

주의사항

환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류	중복자료	저작권 없음	설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우	다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함)	인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우	자료의 설명과 실제 자료의 내용이 일치하지 않는 경우