분류
2025년 8월
작성일
2025.03.31
수정일
2025.03.31
작성자
신채림
조회수
116

텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현

화자 검증(Speaker Verification, SV)는 입력된 음성 발화와 사전에 등록된 화자의 음성 특징을 비교하여 신원을 검증하는 기술로, 텍스트 독립 방식(Text Independent SV, TI-SV)과 텍스트 종속 방식(Text Dependent SV, TD-SV)으로 구분된다.

TI-SV는 발화 내용에 제약이 없다는 장점이 있으나, 다양한 음운적 변이로 인해 정확한 식별이 어렵고, 짧은 발화 환경에서는 성능 저하가 발생하는 한계를 가진다. 

이에 반해 TD-SV는 제한된 음소 구조를 기반으로 하여 짧은 발화에서도 높은 성능을 보이며, 발화 내용과 화자 정보를 동시에 활용할 수 있어 인증의 신뢰성을 높일 수 있다.

그러나 실제 응용 환경에서는 등록(Enrollment)과 테스트(Test) 과정 간의 녹음 거리, 채널, 잡음 등 도메인 불일치 문제가 발생하기 쉽고, 이는 전체 시스템 성능 저하로 이어질 수 있다.

 

본 연구에서는 이러한 환경적 불일치에 강건하면서도 짧은 발화 기반으로 고신뢰 음성 인증이 가능한 TD-SV 시스템을 설계하고, 이를 위해 트랜스포머 기반 딥러닝 모델 및 다양한 최적화 기법을 통합하여 제안한다.

학위연월
2025년 8월
지도교수
백윤주 교수님
키워드
Text-Dependent Speaker Verification, AI, Lightweight, Speaker Recognition
소개 웹페이지
https://github.com/chwaelms/Text-Dependent-Speaker-Verification/tree/main
첨부파일
첨부파일이(가) 없습니다.
다음글
Virtual Screening in a Large Compound Library with Hash-Guided Sampling and Rank-Based Learning
배종현 2025-04-01 13:16:09.237
이전글
실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐색 알고리즘
안현기 2024-10-18 10:49:28.83
RSS 2.0 788
게시물 검색
석사학위논문
번호 제목 작성자 작성일 첨부파일 조회수
788 RAG-sLLM 기반 계약 리스크 자동 분석 프레임워크 제안 : 조선업을 중심으로 윤시록 2025.04.07 0 145
787 가상 에이전트의 지배적 행동이 사용자의 의사 결정 및 지각에 미치는 영향 연구 김태연 2025.04.07 0 104
786 스마트폰 이미지 기반 Visual Localization과 3D 모델을 사용한 수위 추정 노태윤 2025.04.07 0 108
785 Lightweight Time Series Forecasting with LLMs: Le 코난 루스 엠마누엘레 비투아 2025.04.04 0 106
784 블록체인과 CMAC 검증을 통한 전기차 배터리 관리 시스템의 데이터 신뢰성 확보 방안 설계 김재현 2025.04.04 0 74
783 Optimizing User Pairing and Power Allocation for O 아라빈 바라라만 2025.04.04 0 80
782 Deep Learning-Assisted Microservice Deployment Str 뉴그로호 아빌리아 쿠수마푸테리 2025.04.03 0 110
781 GVMambaIR: Graph Vision Mamba for Image Restoratio 리엔 홍키 2025.04.03 0 74
780 드론을 활용한 실시간 원격 흘수 정밀 계측 프레임워크 박찬일 2025.04.02 0 77
779 Mamba-Attention Surface Analysis for Brain Develop 짠시닷 2025.04.02 0 90
778 Multi-Query Retrieval Augmented Generation (RAG) f 리잘디 파흐미 2025.04.02 0 96
777 BLSM-Tree: 블록체인 데이터의 효율적인 범위 탐색을 위한 인덱스 구조 이병영 2025.04.02 0 79
776 전이학습을 통한 사전 학습된 오디오 뉴럴 넷 기반 효과음 분류 및 자동 자막 생성 시스템 정혜윤 2025.04.01 0 89
775 Federated Domain Generalization with On-Server Gra 응우옌쫑빈 2025.04.01 0 115
774 Virtual Screening in a Large Compound Library with 배종현 2025.04.01 0 83
773 텍스트 종속 화자 검증을 위한 경량 딥러닝 모델의 설계 및 구현 신채림 2025.03.31 0 116
772 실내 NLOS 환경에서 RTLS 정확도 향상을 위한 편향 및 편차 맵 기반 가중 그래프 탐 안현기 2024.10.18 0 155
771 비정형 환경 아크 센싱 개선을 위한 중간값 기반 데이터 클러스터링 활용 기법 김희준 2024.10.17 2 142
770 그래프 구조 기반 K-Means를 사용한 간선 방문 지향 MCPP 이해성 2024.10.15 0 169
769 트랜스포머 기반의 폐암 슬라이드 이미지 자동분할에 대한 연구 이리나 2024.10.14 0 130