반응형
본 포스팅에서는 음성을 텍스트로 변환해주는 OpenAI의 Whisper 모델을 구음장애 환자 데이터로 파인튜닝 해보겠습니다. 여기서 음성인식 모델은 자동음성인식(ASR, automatic speech recognition) 기술로, 인간의 음성을 텍스트로 변환하는 기술입니다. Whisper 모델 Whispser는 OpenAI에서 개발한 음성 인식 모델로 Whisper large-v3의 경우 약 100만 시간 가량의 음성 데이터를 통해 사전 훈련되었습니다. 논문에 따르면, Whisper는 Transformer sequence-to-sequence 모델로 구성되어 있으며, 음성 인식/음성 번역/음성 활동 감지를 수행할 수 있습니다. 모델의 구조는 아래 그림과 같습니다. Transformer 구조로 인코더-디..
본 포스팅에서는 실제 데이터를 활용하여 음성 데이터를 전처리해보겠습니다. 특히 음성 데이터에서 침묵 구간과 비침묵 구간을 분리하는 부분을 살펴보겠습니다. 데이터 데이터: AIHub / '구음장애 음성인식 데이터' (https://www.aihub.or.kr/). 특징: 오디오 데이터인 .wav 파일과 데이터의 메타 정보를 담고 있는 .jsom 파일로 구성됨. wav 파일은 10분 ~ 30분 길이로 구성됩니다. 30초 가량 침묵 -> 한마디 -> 30초 가량 침묵 -> 한마디 패턴으로 이루어집니다. json파일에는 오디오 파일에 대한 텍스트 대본을 나타내는 Transcript' 라벨링이 존재합니다. 목표: 한마디 음성 - 텍스트로 매칭되는 (오디오-텍스트) 데이터 쌍으로 재구성. 침묵-비침묵 구간 분리 ..
본 포스팅에서는 실제 데이터를 바탕으로 음성 데이터 시각화와 음성 특징을 추출하는 방법을 알아보겠습니다.데이터활용하는 데이터는 AIHub에서 제공하는 '구음장애 음성인식 데이터'입니다(https://www.aihub.or.kr/). 본 데이터는 구음 장애 환자들의 한국어 음성 녹음 데이터와 관련된 여러 정보를 제공하고 있습니다. AIHub에서는 구음 장애 환자들의 음성을 바탕으로 언어 청각, 후두, 뇌기능의 질병으로 분류하는 샘플 모델을 제공하고 있습니다. 1. 메타 데이터 불러오기먼저 데이터 시각화를 위해 '샘플 데이터'를 다운로드 받아 사용했습니다. 샘플 데이터 세트는 음성을 담고 있는 '원본 데이터'와 음성에 대한 여러 설명, 정보를 담고 있는 '라벨링 데이터'로 구성됩니다. 먼저 라벨링 데이터를 ..
빅데이터 분석기사 7회 합격 후기 2023년 12월 15일 자로 제7회 빅데이터분석기사 필기와 실기 점수가 모두 공개되었습니다. 저는 7회 시험에서 필기 실기 모두 한 번에 합격했고, 공부하면서 궁금했던 내용들을 공유하려고 합니다. 특히, 시험공부를 시작하기 전에 자격증의 난이도나 시험 준비 기간 등에 대해 개인적으로 느낀 점들을 정리했습니다. 빅분기의 경우, 제가 시험을 준비할 때는 아직 6회까지 밖에 치뤄지지 않아 정보가 많이 부족하고 난이도가 불확실한 느낌이였습니다. 게다가 특히 실기는 기출 문제들이 명확하게 나온 곳이 없어서 준비하는 데 어려움이 있었습니다. 하지만 오히려 시험이 얼마 치뤄지지 않아서, 기본기만 확실히 익히면 합격하기 문제가 없을 것 같습니다. 필기, 실기 모두 60점만 넘기면 되..