[Python] 파이썬으로 간단한 STT(음성인식) 개발해보기

STT란? 음성인식(Speech-to-Text, STT)은, 사람이 발화한 음성을 컴퓨터가 이해할 수 있는 텍스트로 변환하는 기술을 말합니다. STT은 최근에 자연어 처리 기술의 발전과 함께 빠르게 발전해 왔으며, 스마트폰의 음성인식 기능, 가상비서, 음성 검색 등 다양한 분야에서 활용되고 있습니다. STT 시스템은 다음과 같은 구성 요소로 이루어져 있습니다. 음성 입력: 사용자가 발화한 음성을 입력받는 부분입니다. 마이크나 전화기와 같은 장비를 통해 입력받을 수 있습니다. 전처리: 입력된 음성 신호를 디지털 신호로 변환하고, 필터링, 잡음 제거 등의 전처리 작업을 수행합니다. 특징 추출: 전처리된 음성 신호에서 특징을 추출합니다. 일반적으로는 Mel-frequency cepstral coefficien..

→2023. 3. 22. 16:16

[Python] 파이썬으로 간단한 STT(음성인식) 개발해보기

티스토리툴바