반응형
본 포스팅에서는 음성을 텍스트로 변환해주는 OpenAI의 Whisper 모델을 구음장애 환자 데이터로 파인튜닝 해보겠습니다. 여기서 음성인식 모델은 자동음성인식(ASR, automatic speech recognition) 기술로, 인간의 음성을 텍스트로 변환하는 기술입니다. Whisper 모델 Whispser는 OpenAI에서 개발한 음성 인식 모델로 Whisper large-v3의 경우 약 100만 시간 가량의 음성 데이터를 통해 사전 훈련되었습니다. 논문에 따르면, Whisper는 Transformer sequence-to-sequence 모델로 구성되어 있으며, 음성 인식/음성 번역/음성 활동 감지를 수행할 수 있습니다. 모델의 구조는 아래 그림과 같습니다. Transformer 구조로 인코더-디..
본 포스팅에서는 실제 데이터를 활용하여 음성 데이터를 전처리해보겠습니다. 특히 음성 데이터에서 침묵 구간과 비침묵 구간을 분리하는 부분을 살펴보겠습니다. 데이터 데이터: AIHub / '구음장애 음성인식 데이터' (https://www.aihub.or.kr/). 특징: 오디오 데이터인 .wav 파일과 데이터의 메타 정보를 담고 있는 .jsom 파일로 구성됨. wav 파일은 10분 ~ 30분 길이로 구성됩니다. 30초 가량 침묵 -> 한마디 -> 30초 가량 침묵 -> 한마디 패턴으로 이루어집니다. json파일에는 오디오 파일에 대한 텍스트 대본을 나타내는 Transcript' 라벨링이 존재합니다. 목표: 한마디 음성 - 텍스트로 매칭되는 (오디오-텍스트) 데이터 쌍으로 재구성. 침묵-비침묵 구간 분리 ..
본 포스팅에서는 실제 데이터를 바탕으로 음성 데이터 시각화와 음성 특징을 추출하는 방법을 알아보겠습니다.데이터활용하는 데이터는 AIHub에서 제공하는 '구음장애 음성인식 데이터'입니다(https://www.aihub.or.kr/). 본 데이터는 구음 장애 환자들의 한국어 음성 녹음 데이터와 관련된 여러 정보를 제공하고 있습니다. AIHub에서는 구음 장애 환자들의 음성을 바탕으로 언어 청각, 후두, 뇌기능의 질병으로 분류하는 샘플 모델을 제공하고 있습니다. 1. 메타 데이터 불러오기먼저 데이터 시각화를 위해 '샘플 데이터'를 다운로드 받아 사용했습니다. 샘플 데이터 세트는 음성을 담고 있는 '원본 데이터'와 음성에 대한 여러 설명, 정보를 담고 있는 '라벨링 데이터'로 구성됩니다. 먼저 라벨링 데이터를 ..
1. 개요 실무에서 RDBMS를 다룰 때, 다양한 유형의 시간 관련 데이터 타입을 사용합니다. 시간 관련 데이터 타입은 대표적으로 다음과 같습니다. Date: 일자 정보를 가지며, 주로 'YYYY-MM-DD' 형식으로 표현됩니다. Timestamp: 일자와 함께 시간 정보를 가지며, 'YYYY-MM-DD HH24:MI:SS' 형식으로 표현됩니다. Time: 시간 정보만을 가지며, 'HH24:MI:SS' 형식으로 표현됩니다. Interval: 특정 기간을 나타내며, 'N days HH:MI_SS' 형식으로 표현됩니다(timestamp 형식 데이터와 연산할 때 사용합니다.). 문자열을 Date, Timestamp로 변환하는 코드는 간단히 아래와 같습니다: to_date('2022-01-01', 'yyyy-m..
GROUP BY 알아보기 GROUP BY는 특정 열을 기준으로 데이터를 그룹화하는 역할을 합니다. 예를 들어, 같은 부서에 속하는 직원들의 데이터를 묶어주어 평균 연봉을 계산하거나, 부서 별 직원들의 숫자를 구합니다. GROUP BY의 기본 예제는 아래와 같습니다. SELECT customer_id, SUM(order_amount) FROM orders GROUP BY customer_id; 위 커리는 전체 주문 데이터가 모여있는 'orders' 테이블에서 고객 id 별로 그룹화하고, 총 구매 량을 구합니다. HAVING절과 함께 사용하기 HAVING 절은 GROUP BY와 함께 사용되며, 그룹화된 결과에 조건을 적용합니다. 이는 WHERE 절이, GROUP BY를 적용하기 전에 데이터를 필터링 하는 것..
빅데이터 분석기사 7회 합격 후기 2023년 12월 15일 자로 제7회 빅데이터분석기사 필기와 실기 점수가 모두 공개되었습니다. 저는 7회 시험에서 필기 실기 모두 한 번에 합격했고, 공부하면서 궁금했던 내용들을 공유하려고 합니다. 특히, 시험공부를 시작하기 전에 자격증의 난이도나 시험 준비 기간 등에 대해 개인적으로 느낀 점들을 정리했습니다. 빅분기의 경우, 제가 시험을 준비할 때는 아직 6회까지 밖에 치뤄지지 않아 정보가 많이 부족하고 난이도가 불확실한 느낌이였습니다. 게다가 특히 실기는 기출 문제들이 명확하게 나온 곳이 없어서 준비하는 데 어려움이 있었습니다. 하지만 오히려 시험이 얼마 치뤄지지 않아서, 기본기만 확실히 익히면 합격하기 문제가 없을 것 같습니다. 필기, 실기 모두 60점만 넘기면 되..