1. 서론
프랑스어 구강모음 체계는 전설 평순 /i/, /e/, /ɛ/, /a/, 후설 원순 /u/, /o/, /ɔ/, 그리고 전설 원순 /y/, /ø/, /œ/로 구성되며, 이는 개구도, 전·후설성, 원순성의 주요 조음 자질에 따라 분류된다. Schwartz et al.(1997)과 Georgeton et al.(2012)은 프랑스어 구강모음이 F1과 F2의 음향 공간에서 조밀하게 분포하며 세분된 음향적 대비를 형성한다고 보고하였으며, 특히 중모음 /e/-/ɛ/, /o/-/ɔ/가 개구도에 따라 뚜렷하게 구별되는 음향 특성을 지닌다고 분석하였다. 이러한 자질 중심의 구분 체계는 제2언어 화자에게 높은 조음 정확성을 요구하며, 언어 간 음향 공간 구조의 차이는 학습자의 조음 실현에 간섭 요인으로 작용할 수 있다(Kim et al., 2022).
한국어의 단모음 체계는 전설 평순 /이/, /에/, /애/, 후설 평순으/, /어/, /아/, 그리고 후설 원순 /우/, /오/로 구성되며, 프랑스어의 경우와 마찬가지로 개구도, 전·후설성, 원순성 자질에 따라 구분된다. 현대 한국어는 F1-F2 음향 공간에서 /에/와 /애/가 더 이상 구분되지 않는 경향을 보이며, /우/-/오/의 대립은 원칙적으로 개구도의 차이로 식별되어야 하나 실제로는 서로 중첩되는 양상을 보인다. Seong(2004)는 청각적으로 /에/-/애/의 F1-F2 분포가 쉽게 변별되지 않는다고 지적하였고, Lee & Zhi(1983), Jang & Shin(2007), Shin(2004), Shin(2022)은 음향 실험을 통해 이 대립쌍의 실현이 화자와 맥락에 따라 중첩되는 경향이 있음을 보고하였다. Byun(2020), 재인용 Zhao(2024)에 따르면, 서울 지역 여성 화자의 /우/-/오/는 포먼트 주파수 값만으로는 일관된 변별이 어렵지만, 지각에서는 /우/의 F2가 /오/보다 낮게 실현되어 주요 변별 단서로 작용하는 것으로 나타났다. 이러한 결과는 Byun(2018)의 실험 결과와도 일치한다.
발음 습득에서 제1언어는 제2언어의 자질 실현 전 과정에서 체계적인 간섭을 유발한다. Flege et al.(1995)은 이탈리아어 화자의 영어 발화를 분석한 결과, 제1언어에 존재하지 않는 음소에서 조음 정확도가 낮으며 외국어 악센트가 두드러지는 경향을 보고하였다. Lee et al.(2006)은 한국어 및 일본어 화자의 영어 모음 산출을 비교하여, 각 언어의 모음 체계가 제2언어 모음의 지속시간과 포먼트 궤적 실현에 유의미한 영향을 미친다고 밝혔다. Iverson & Evans(2007)는 다양한 제1언어 배경 화자들의 영어 모음을 산출을 분석한 결과, 제1언어의 음향 범주 구조가 제2언어 모음의 F1, F2값에 직접적 음향적 간섭을 일으킨다고 보고하였다.
이러한 모국어 기반의 음향적 간섭은 조음의 정확성 손실뿐만 아니라, 산출 방식과 학습 전략의 형성 과정에도 영향을 미친다. Schertz et al.(2015)은 한국인 영어 학습자의 /l/–/ɹ/ 산출에서 제1언어의 조음 습관이 제2언어의 음소 지각 및 산출 모두에 구조적 간섭을 초래한다고 보고하였으며, Kartushina & Martin(2019)은 성인 학습자가 새로운 제2언어의 모음 대립을 학습할 때, 제1언어와 음향적으로 유사한 모음일수록 지각 정확도가 낮고 이러한 간섭이 학습 이후에도 지속될 수 있음을 밝혔다.
기존 연구는 이러한 조음 간섭 양상을 주로 ‘조음 정확성(articulatory accuracy)’의 관점에서 설명해 왔다(Flege, 1995). Flege(1995)의 음성 학습 모델(speech learning model)에 따르면, 학습자는 제1언어의 음운 범주를 바탕으로 제2언어의 음소를 지각·산출하기 때문에, 정확성은 원어민의 자질 실현값을 목표값으로 설정한 뒤 학습자의 평균값 또는 z-score가 해당 목표값에 도달했는지를 수치적으로 평가하는 방식으로 정의되어 왔다(Flege, 1995; Iverson & Evans, 2007; Koffi, 2021; Lee et al., 2006). 그러나 이러한 평균 중심의 정적 기준은 단일 시점의 평균값에 의존함으로써, 목표 음소의 조음 범주 형성 과정이나 조정 능력, 그리고 발화 조건에 따른 변동 양상을 포착하기 어렵다는 지적이 제기되어 왔다. Escudero(2005)는 제2언어 음소의 지각이 제1언어 기반의 범주적 제약을 지속적으로 받으며, 학습자가 새로운 음소 범주를 구축하기보다 기존 제1언어 범주 체계 내에서 제2언어 모음을 제1언어 범주에 지각적 동화(perceptual assimilation)하는 방식으로 처리한다고 설명하였다. Iverson & Evans(2007)는 평균 포먼트 값의 유사성만으로는 조음 범주의 형성이나 학습 성취를 설명하기에 불충분하다고 지적하며, 포먼트 이동이나 지속시간과 같은 동적 음향 단서가 학습자의 음소 분류에 결정적인 역할을 한다고 보았다. Inceoglu(2018)는 음운 단기기억(phonological short-term memory)이 제2언어 프랑스어 비강모음의 지각과 산출 모두에 유의하게 작용함을 확인하였으며, 이는 평균값 중심의 정확성 평가를 보완하는 인지적 요인을 실험적으로 입증한 연구로 평가된다.
이러한 한계를 보완하기 위해 최근 연구들은 동일 자질을 반복 발화할 때 나타나는 ‘조음 변동성(articulatory variability)’을 조음 정확성의 보완 지표로 제안하고 있다. 변동성은 단순한 산출 오류가 아니라 화자의 조음 전략, 조정 능력, 그리고 음운 범주의 정착 과정을 반영하는 동적 지표로 간주된다. Paillereau(2016)는 프랑스어 원어민 화자가 동일 문장을 네 차례 반복 발화했을 때 문맥 조건에 따라 F1-F2 값이 체계적으로 달라짐을 확인하였으며, 이는 자질 실현이 고정된 목표값이 아니라 조음적 조정의 결과임을 시사한다. Lindblom(1990)의 축소·과조음(hypo- & hyper-articulation) 이론은 화자가 명료도(clarity)와 조음 노력(effort) 간의 균형을 조절하며 자질을 상황적으로 변형시킨다고 설명하였고, Pierrehumbert(2008)는 이를 확장하여 음소를 단일 평균값이 아닌 다양한 실현값의 분포로 구성된 확률적 범주(probabilistic category)로 정의하면서, 변동성 자체가 음운 범주의 본질적 특성임을 제시하였다.
그러나 제2언어 학습에서 자질 실현의 변동 폭이 원어민 범위를 현저히 초과할 경우, 이는 조음 체계가 아직 안정화되지 않았음을 시사하는 오류적 변동으로 간주될 수 있다. Turner(2023)는 반복 발화 간 자질 실현의 불규칙성이 조음 전략이 완전히 형성되지 않은 상태를 반영하며, 그 변동 폭이 조음 조정 능력의 핵심 지표가 될 수 있다고 보고하였다. Teles & Huey(2020)는 스페인어 화자의 프랑스어 모음 산출에서 F1, F2, 지속시간의 분산이 원어민보다 훨씬 크다는 점을 근거로 변동성을 정량적으로 평가하는 접근의 중요성을 제시하였으며, Schertz et al.(2015) 또한 변동성을 음운 범주의 형성과 조음 전략 발단 수준을 파악하는 주요 지표로 보았다.
한국인 프랑스어 학습자의 발음을 대상으로 한 음향 연구는 아직까지 그 수가 많지 않고, 연구마다 분석 대상으로 삼은 모음, 사용된 음향 자질, 통계 절차와 보고 방식이 상이하게 설정되어 있다. 이로 인해 기존 결과를 공통된 분석 틀 안에서 비교·종합하기 어렵고, 모음별 학습 난이도와 조음 변동성을 체계적으로 기술하는 데에도 한계가 존재한다. 특히 프랑스어 구강모음을 대상으로, 한국인 학습자의 산출이 원어민 집단의 분포에서 어느 정도까지 벗어나는지를 모음·자질 단위로 정리하여 학습자–원어민 차이를 정량적으로 기술한 연구는 매우 제한적이다.
이러한 이론적·실증적 논의를 바탕으로, 본 연구는 한국인 학습자와 프랑스어 원어민이 세 차례 반복 발화한 프랑스어 구강모음을 대상으로, 조음 정확성과 변동성을 모두 반영하는 음향 자질을 종합적으로 분석하고자 한다. 특히 본 연구는 정확성 자질과 변동성 자질 각각에 대해, 원어민의 실현값을 기준으로 최소변별치(just noticeable difference)를 초과하는 학습자 실현값을 오류적 변동성으로 판단하고, 그 수치적 임계값(threshold)을 제시하는 것을 목적으로 한다. 지금까지 제2언어 발화 연구에서 최소변별치 기반의 수치적 임계값을 명시적으로 제안한 사례는 극히 제한적이었으며(2.3 참조), 이에 본 연구는 선행연구의 실험적 근거와 통계적·경험적 기준을 바탕으로 자질별 최소변별치를 설정하고자 한다.
이를 위해 다음과 같은 두 가지 연구 질문을 설정하였다.
2. 연구 방법
본 연구의 분석 대상은 프랑스어 구강모음 10개(/i/, /e/, /ɛ/, /a/, /u/, /o/, /ɔ/, /y/, /ø/, /œ/)이며, 각 모음은 두 개의 실제 단어에 포함된 형태로 선정하였다. 표 1은 각 목표 모음과 그것을 포함한 자극어 목록을 제시한 것이다.
각 자극어는 유성 및 무성 파열음(/p/, /b/)이 초성으로 결합된 최소쌍 단어로 구성되었다. 예를 들어, 목표 모음 /ɛ/는 Paix/pɛ/와 Baie /bɛ/에 각각 포함되어 있다. 자극 문장은 Lauret(2007:176-184)의 제안을 바탕으로 “CV, tu prononces V comme dans CV”(너는 CV의 V처럼 V를 발음한다) 형식을 따랐으며, 피험자는 슬라이드에 제시된 문장을 보고 한 문장씩 순차적으로 발화하였다.
한국인 프랑스어 학습자 집단은 DELF(intermediate-level French proficiency certificate) B1 이상 수준의 대학생 10명(남 2, 여 8)으로 구성되었으며, 원어민 집단은 프랑스 파리 및 인근 지역 출신의 프랑스 국적 화자 6명(남 2, 여 4)이 참여하였다. 모든 발화는 방음 설비가 갖춰진 실험실에서 동일 마이크(44.1 kHz, 16-bit 고정형 콘덴서 마이크)를 사용하여 녹음하였다.
표 2는 집단별 발화 수와 수집된 데이터 현황을 요약한 것이다. 각 모음은 ‘무성/유성(2)×자극 문장 내 CV 단어 수(2)×반복(3)’의 조건으로 화자당 모음별 총 12회 발화되었다. 이에 따라 학습자 집단에서는 10개 모음×12회×10명=1,200회, 원어민 집단에서는 10개 모음×12회×6명=720회가 수집되어, 총 1,920개의 발화 자료가 확보되었다.
| Group | Oral vowels | Repetitions | Participants | Tokens |
|---|---|---|---|---|
| Learners | 10 | 12 | 10 | 1,200 |
| Native speakers | 10 | 12 | 6 | 720 |
| Total | 1,920 |
조음 정확성(articulatory accuracy)은 학습자의 음향 자질값이 원어민 목표값에 얼마나 근접하는지를 평가하는 개념으로, 평균값 중심의 비교 분석을 통해 목표 음소에 대한 조음 도달 여부를 파악한다(Flege, 1995). 즉, 학습자의 산출이 목표 언어 음소의 음향적 범위 안에 들어오는지를 계량적으로 판단하는 것이다.
일반적으로 포먼트 주파수(F1, F2, F3)는 조음 정확성을 평가하는 핵심 음향 자질이다. F1과 F2는 각각 모음의 개구도와 혀의 전후 위치를 반영한다. Bohn & Flege(1992)는 독일어 화자의 영어 모음 산출에서 F1-F2 평균값이 원어민 목표치에 얼마나 근접하는지를 학습의 주요 지표로 삼았고, Lee et al.(2006)은 한국인 학습자의 영어 약모음(/ə, ɪ, ʊ/) 산출을 대상으로, F1-F2 편차를 측정하여 조음 도달 정도를 평가하였다. Smith et al.(2019)은 중국어와 스페인어 화자를 포함한 영어 학습자의 긴장-이완 모음 산출에서 학습자와 원어민 간 평균 F1-F2 좌표 간 거리(mean euclidean formant distance)를 계산하여 조음 정확성을 정량화하였다.
F3은 원순성과 구강 길이 변화에 민감한 보조 지표로, Gendrot et al.(2008)은 프랑스어 남녀 화자의 포먼트 차이를 분석하여 F3이 성별 및 조음 위치 차이를 구별하는 단서로 작용함을 보여주었다. Kamiyama & Vaissière(2009)는 프랑스어 모음의 포먼트 패턴 연구에서 F3이 원순모음의 조음 정확성 판단에 결정적 역할을 함을 제시하였고, Séguin(2010)과 Abadie(2024) 또한 F3 변동이 입술 원순도의 변화를 반영한다는 점을 실험적으로 확인하였다.
모음공간면적(vowel space area, VSA)은 F1-F2 좌표상 모음들의 분포 면적으로, 개별 모음의 정확성뿐 아니라 전체 조음 체계의 확장 정도를 나타낸다. Flege(2007)는 제2언어 화자의 모음공간이 원어민보다 축소되는 현상을 보고하며 이를 조음 숙련도의 지표로 제시하였다. Kartushina et al.(2016)은 반복 훈련 후 러시아인 학습자의 프랑스어 모음공간 확장이 조음 정확성 향상과 통계적으로 유의하게 연관됨을 입증하였으며, Turner(2023)는 종단 연구를 통해 모음공간 확장이 조음 범주 발달을 반영한다고 보았다.
본 연구는 이러한 선행연구를 바탕으로 모음 지속시간, F1, F2, F3, 모음공간면적을 조음 정확성 평가 자질로 채택하였다. 포먼트 주파수는 각 모음 구간의 중간지점(50%)에서 측정하였다(Park & Kim, 2023).
본 연구에서 정확성 평가 기준은 음향학 및 지각 음성학 분야의 선행연구(Koffi, 2018, 2021, 2024; Koffi & Krause, 2020)에서 제시된 최소변별치 개념에 근거하였다. 최소변별치는 청각적으로 감지 가능한 가장 작은 음향 차이를 의미하며, 음성 자질 간 변별 가능성을 판단하는 지각적 기준(perceptual reference threshold)으로 활용된다. 따라서 제2언어 화자의 음향 자질이 이러한 임계값을 초과하는 경우, 원어민 청자에게 서로 다른 음소로 지각되거나 발화 오류로 인식될 가능성이 높다(Koffi, 2018, 2021; Koffi & Krause, 2020).
모음 지속시간에 관해서, Koffi(2018, 2021)와 Koffi & Krause(2020)는 청자가 변화를 지각할 수 있는 최소변별치로 약 20–25 ms를 제시하였다. 본 연구는 문장 내 발화 조건에서 모음 간 지속시간 차이가 일정하다고 가정하고, 학습자 평균값이 원어민 평균보다 20 ms 이상 벗어나는 경우를 정확성 기준 이탈로 간주하였다.
포먼트 주파수 자질에 대해서는 선행연구의 임계값을 통합적으로 검토하였다. F1의 경우 Mermelstein(1978)은 약 60 Hz 이상에서 변별 가능성을 보고하였고, Kewley-Port(1990)와 Kewley-Port & Watson(1994)은 1%–2% 또는 14 Hz 수준의 차이를 지각 가능한 범위로 제시하였다. Karlsson & Eriksson(1999)은 이러한 절대적 기준 대신 Weber fraction 개념을 적용하여, 자극의 기준 주파수 대비 지각 가능한 최소 변화 비율(Δf/f)을 산출하였다. 그 결과, 포먼트 번호와 주파수 대역에 따라 약 0.03–0.14(즉, 3%–14%)의 상대적 차이가 변별 가능한 범위로 나타났으며, 평균적으로 상향 0.07, 하향 0.11 수준의 차이가 청각적 임계값으로 제안되었다. Koffi & Krause(2020)와 Koffi(2021)는 이들 연구의 수치를 종합하여 F1의 최소변별치를 약 60 Hz로 제시하였다.
F2의 경우, 문헌마다 제시된 최소변별치가 다소 상이하다. Mermelstein(1978)은 약 176 Hz 이상의 차이에서 청자가 모음의 품질 변화를 인식할 수 있다고 보고하였고, Kewley-Port & Watson(1994)은 기준 주파수 대비 약 1.5%의 상대적 차이를 변별 가능한 수준으로 제시하였다. Flanagan(1955), 재인용 Karlsson & Eriksson(1999)은 Weber fraction을 적용하여 약 0.03–0.05(3%–5%)의 상대적 차이를 변별 가능 임계값으로 제시하였다. 이러한 기준들을 종합하여 Koffi & Krause(2020)와 Koffi(2021)는 약 200 Hz 이상의 차이를 F2의 실질적 최소변별치로 제안하였다. F3의 경우, Hawks(1994)는 모델 기반 분석을 통해 약 2.1% 수준의 변별 한계를 보고하였으며, Koffi & Krause(2020)와 Koffi(2021, 2024)는 이를 근거로 약 400 Hz 이상의 차이를 F3의 최소변별치로 명시하였다.
이와 같이 포먼트 주파수 자질들은 모두 Hz 단위로 측정되지만, 자질마다 평균값의 크기와 분포 범위가 다르므로 절대값 기준으로만 비교할 경우 자질 간 상대적 편차를 충분히 반영하기 어렵다. 이에 본 연구는 개별 학습자의 평균값을 원어민 집단 평균과 표준편차를 기준으로 정규화한 z-score 값으로 환산하고, 그 분포의 ±1 표준편차(SD) 범위를 정상 범위로 설정하였다. 즉, F1, F2, F3의 조음 정확성 평가는 모두 원어민 집단의 평균을 기준으로 산출된 정규화 점수(z-score)가 ±1 SD 범위 내에 포함되는지의 여부를 공통 임계값으로 삼았다.
한편, 모음공간면적은 개별 모음의 포먼트 값에 기반한 단일 자질이 아니라, 복수의 모음 F1-F2 평균 좌표를 결합하여 형성된 2차원 음향 공간의 면적으로 정의된다. 본 연구에서는 프랑스어 10개 구강모음의 각 화자별 평균 F1-F2 값을 음향적 위치로 간주하고, 이들 좌표 중 외곽을 형성하는 모음들을 연결하여 구성된 블록껍질(convex hull)의 면적을 해당 화자의 모음공간면적으로 산출하였다. 블록껍질은 모든 모음 좌표를 포함하는 최소한의 볼록 다각형으로, 중심부에 위치한 전설 원순모음(/y/, /ø/, /œ/)은 포함되더라도 실제 경계 형성에는 직접적으로 기여하지 않을 수 있다. 따라서 본 지표는 10개 모음의 전체 공간 분포를 반영하되, 조음 공간의 외연(조음 범위)을 중심으로 측정된 대표적 면적 지표로 해석된다. 모음공간면적은 화자 단위로 산출되며, 각 화자당 하나의 총합 값만 생성되므로, 개별 모음 자질처럼 z-score 정규화를 적용하기는 어렵다. 이에 따라 본 연구는 원어민 집단 평균 모음공간면적을 기준값으로 설정하고, 학습자 집단 평균과의 차이가 원어민 집단 표준편차의 ±1.0을 초과하는 경우, 즉 |ΔM / SDN| > 1인 경우를 임계값 초과로 간주하였다. 여기서 SDN은 원어민 집단(N=native speaker)의 표준편차를 의미한다. 이러한 기준은 연속적으로 분포하는 음향 자질에 대해 ±1 SD 범위를 정상 범위로 간주할 수 있다는 Field(2024: 275-278)의 통계적 해석에 근거한다.
표 3은 조음 정확성 평가를 위해 본 연구에서 채택한 음향 자질별 최소변별치 기준을 요약한 것이다.
조음 변동성은 동일 모음을 반복 산출할 때 자질 실현값의 경로, 분산, 상대 관계 변화를 측정함으로써, 화자의 조음 전략, 조정 능력, 그리고 음운 범주의 정착도를 반영한다(Schertz et al., 2015; Teles & Huey, 2020; Turner, 2023). 본 연구에서는 이러한 변동성을 1) 시간 기반, 2) 공간 기반, 3) 비율 기반 자질로 구분하여 분석하였다.
Grabe & Low(2002)와 White & Matthys(2007)가 제안한 모음 지속시간 변동계수(variation coefficient of vowels, VarcoV)는 동일 모음을 반복 발화할 때 모음 지속시간이 얼마나 일정하게 유지되는지를 나타내는 지표이다. 이 값은 발화 속도에 정규화된 변동계수(coefficient of variation, CV=SD/Mean)로 산출되며, 발화 속도 차이를 통제할 수 있다는 점에서 제2언어 화자의 리듬 습득 정도뿐 아니라 시간 조절 능력을 평가하는 데 유용하다. Grabe & Low(2002)와 White & Matthys(2007)는 VarcoV가 절대 지속시간보다 리듬 변동을 더 민감하게 포착한다고 보고하였으며, Porzuczek(2012: 203, 211)는 단어 및 음절 수준의 반복 발화에서 VarcoV를 활용하여 제2언어 화자와 원어민의 시간 조절 양상을 정량적으로 비교하였다. 이에 따라 본 연구는 모음의 평균 지속시간을 정확성 자질로, VarcoV(%)를 시간 기반 변동성 자질로 구분하여 분석하였다. VarcoV는 발화 속도에 대해 이미 정규화되어 있으므로, 추가적인 z-score 변환 없이 집단 간 비교가 가능하다(Ramus et al., 1999).
Flege(2007), Pardo et al.(2017), Turner(2023)가 제안한 포먼트궤적길이(formant trajectory length, FTL)는 모음 구간 내에서 시간의 흐름에 따라 변화하는 포먼트 궤적의 총 이동 거리를 나타낸다. 즉, 동일 모음을 반복 발화할 때 포먼트 경로가 얼마나 일정하게 유지되는지를 수치화한 지표이다. Markel(1972)의 포먼트 궤적 추정(formant trajectory estimation) 접근 또한 프레임 단위로 포먼트 변화를 추적하여 조음 움직임의 시간적 변화를 정량화한 바 있다.
본 연구에서는 각 모음 구간을 등간격으로 N개의 시점으로 나누고, 시점 i 와 i+1에서의 F1-F2 값을 (F1i, F2i), (F1i+1, F2i+1)로 두었다. 포먼트궤적길이는 인접한 두 점 사이의 유클리드 거리를 모두 더한 값으로 정의한다.
포먼트분산(formant dispersion, FD)은 Ménard et al.(2007)과 Kartushina & Frauenfelder(2014)가 제안한 개념으로, 동일 음소의 반복 발화에서 F1과 F2 값이 음향 공간상 얼마나 넓게 분포하는지를 측정한다. 이는 조음 범위의 확산 정도를 정량화하는 대표적 지표로 사용된다. Ménard et al.(2007)은 아동과 성인의 모음 산출에서 반복된 F1-F2 값의 분포를 타원(ellipse) 형태로 시각화하여 연령에 따른 조음 변동성 차이를 분석하였으며, Kartushina & Frauenfelder(2014)는 스페인어 화자의 프랑스어 /e/–/ɛ/ 산출에서 두 모음이 F1-F2 공간상 크게 중첩되어 음향적으로 명확히 구별되지 않는 양상을 보고하였다.
포먼트 비율(formant ratios F1/F2, F2/F3)에 관해, Monahan & Idsardi(2010)는 F1/F3과 F2/F3 비율이 화자 간 음향 차이를 축소시켜 연령이나 성별이 다른 화자의 발화도 청자가 동일한 음소로 인식할 수 있게 하는 지각적 정규화 단서(perceptual normalization cue)로 작용함을 입증하였다. 이 연구에서는 F3을 Mel 스케일로 ±4% 조작하여 F1/F3 비율을 변화시킨 결과, 청각 피질(auditory cortex)에서 약 100 ms 시점에 나타나는 M100 반응―음향 자극에 대한 초기 청각 처리 단계에서 측정되는 신경 자기반응(auditory evoked magnetic response)―의 잠재시간(latency)이 유의하게 달라졌음을 확인하였다. 이는 포먼트 간의 상대적 비율 관계가 청각 피질 수준에서 직접적으로 지각 구별을 유도할 만큼 민감하게 작용함을 보여주는 신경생리학적 근거로 해석된다. Hillenbrand et al.(1995) 또한 영어 모음 데이터 통해 F3이 화자 간 성도 길이의 차이를 반영하는 핵심 변수임을 확인하였으며, 이후 연구들은 화자 간 음향적 변이를 보정하는 주요 지표로 포먼트 비율을 제시하였다. 즉, 포먼트 비율은 절대 주파수 값보다 화자 특성의 영향을 덜 받아 지각적으로 안정된 구별 단서로 기능한다.
한편 본 연구의 초점은 화자 간 정규화가 아니라 화자 내 조음적 변동성에 있다. 즉, 동일 화자가 반복 발화할 때 조음 자질 간 상호 변동 양상이 어떻게 나타나는지를 분석의 초점으로 삼는다. 이에 따라 Monahan & Idsardi(2010)의 포먼트 비율 개념을 조음적 분석 틀로 확장하여 F1/F2와 F2/F3 비율을 변동성 평가의 지표로 채택하였다. F1/F2 비율은 모음의 개구도와 혀 위치의 전·후설성 간 변동 관계를, F2/F3 비율은 혀 위치와 입술 원순성 간 변동 관계를 반영한다. 두 비율은 조음 자질 간 상호 작용의 상대적 변동 정도를 나타내는 물리적 지표로서, 동일 화자 내에서 조음 변동성이 어떻게 조정되는지를 평가하는 데 적합하다.
결과적으로 본 연구는 VarcoV, 포먼트궤적길이, 포먼트분산, F1/F2 비율, F2/F3 비율의 다섯 가지 자질을 중심으로 조음 변동성을 측정하였다.
VarcoV는 Dellwo(2006: 235)가 제안한 변동계수(CV) 산출 방식을 적용하였다. 변동계수는 표준편차를 평균으로 나눈 값으로, 데이터의 상대적 산포를 나타내며 단위나 척도에 관계없이 비교가 가능하다(Field, 2024). 통계적으로 CV 값이 30%를 초과할 경우 평균 대비 산포가 매우 커 변동성이 높은 집단으로 간주하는 것이 일반적이며, 이는 실험·측정·품질관리 분야에서 ‘허용하기 어려운 수준’으로 분류된다(Field, 2024). 따라서 본 연구에서는 CV≥30%를 조음 시간 조절 변동성이 통계적으로 뚜렷하게 나타나는 임계값으로 설정하였다.
포먼트궤적길이에 대해서는 변동성을 판단할 수 있는 명확한 수치 기준이 제시된 선행연구가 존재하지 않았다. 이에 본 연구는 절대값 대신 실제 데이터 분포를 기반으로 한 상대적 임계값을 설정하였다. 구체적으로, 학습자와 원어민 집단의 변동계수를 비교하여 학습자 집단의 변동계수가 원어민보다 상대적으로 큰 경우 해당 모음에서 변동성이 높다고 보았다. 이때 변동계수 비율(CV ratio)이 전체 분포의 상위 25%에 해당하는 약 1.2배 이상인 경우를 판단 기준으로 삼았다. 이러한 방식은 절대값만으로는 포착하기 어려운 미세한 변동 차이를 실제 데이터 분포 기반으로 민감하게 포착하기 위한 절차이다. VarcoV 항목에서 언급했듯이, 시간 기반 자질은 발화 속도나 자극 구조의 영향으로 수치가 달라질 수 있으므로 절대값 중심 해석은 왜곡을 초래할 수 있다. 따라서 포먼트궤적길이 또한 절대값이 아닌 상대적 비교를 해석하였으며, 이는 Field(2024)가 제시한 경험적 통계 접근(empirical statistical approach)에 부합한다.
포먼트분산은 Brown & Forsythe(1974)의 분산 비교 접근법을 참고하였다. 이 방법은 각 집단의 중앙값을 기준으로 절대편차를 계산한 뒤, 분산분석(ANOVA)을 통해 집단 간 산포 차이를 검정하는 방식으로, 표준 Levene 검정보다 이상치에 덜 민감한 ‘강건한 분산 동질성 검정(robust test of homogeneity)’으로 알려져 있다. 본 연구는 이를 적용하여, 학습자 집단의 표준편차가 원어민 집단보다 1.5배 이상(SD ratio≥1.5) 큰 경우를 변동성이 증가한 것으로 간주하였다. 이 수치는 문헌상 확립된 기준은 아니지만, Field(2024)의 논의에 따르면 표준편차 비율이 이 수준에 도달하면 분산 동질성 검정에서 유의미한 차이를 보일 가능성이 높아 실질적 변동 차이로 간주할 수 있다. 따라서 본 연구는 이를 경험적 근거에 기초한 탐색적 판단 기준으로 채택하였다.
포먼트 비율에 대해서는 Monahan & Idsardi(2010)의 신경생리학적 실험 결과를 참조하였다. 본 연구는 해당 연구에서 관찰된 약 8% 수준의 민감도를 토대로, ±10%를 변동성 판단의 실험적 기준으로 설정하였다. 이에 따라 학습자의 F1/F2 및 F2/F3 평균 비율이 원어민 평균 대비 ±10% 이상 차이를 보일 경우, 해당 포먼트 비율에서 조음 자질 간 변동성이 높아진 것으로 간주하였다.
이상의 논의를 바탕으로 조음 변동성 평가에 사용된 음향 자질별 최소변별치 기준을 표 4에 요약하였다.
| Feature | JND-based threshold |
|---|---|
| VarcoV | LM≥30.0% |
| Formant trajectory length | CV ratio≥1.2 |
| Formant dispersion | SD ratio≥1.5 |
| F1/F2 ratio | |Δ(F1/F2)|≥10% |
| F2/F3 ratio | |Δ(F2/F3)|≥10% |
녹음된 음성 자료는 Montreal Forced Aligner(McAuliffe et al., 2025)를 사용하여 음소 단위로 자동 정렬한 후, Praat(Boersma & Weenink, 2022)를 이용하여 정렬 정확도를 수동으로 검토하고 필요한 경우 수정하였다. 이후 각 음소 구간의 음향 자질은 Praat의 Python 인터페이스인 Parselmouth(Jadoul et al., 2018)를 통해 자동으로 추출하였다.
본 연구의 통계 분석 목적은 원어민과 학습자 집단 간 각 음향 자질값의 평균 차이가 통계적으로 유의한지를 검증하는 데 있다. 이를 통해 사전에 설정한 정확성 및 변동성 임계값을 초과한 차이가 통계적으로도 유의한지를 확인하고, 두 분석 결과를 상호 보완적으로 해석하였다. 예컨대, 임계값은 초과했으나 통계적으로 유의하지 않은 경우와, 임계값 이내지만 통계적으로 유의한 경우를 구분함으로써 단순 임계값 판정보다 더 정교한 해석을 가능하게 하였다.
모든 통계 분석은 유의수준 α=.05의 양측검정을 기준으로 수행하였다. 각 자질의 정규성은 Shapiro–Wilk 검정으로, 등분산성은 Levene 검정으로 확인하였다. 두 조건이 모두 충족된 경우에는 독립 표본 t-검정을, 어느 하나라도 충족되지 않은 경우에는 Mann–Whitney U 검정을 적용하였다.
포먼트 주파수 관련 자질(F1, F2, F3)은 성별에 따른 음향 차이를 통제하기 위하여 화자별로 z-score 정규화[z=(x–μ)/σ]한 값을 기준으로 비교하였다. 반면, 모음 지속시간, 모음공간면적, 포먼트분산, 그리고 F1/F2 및 F2/F3 비율은 원자료(raw values)를 기준으로 분석하였다.
시간 기반 변동성 지표인 VarcoV는 동일 모음의 반복 발화에서 산출된 모음 지속시간의 변동계수(CV=표준편차÷평균×100%)로 계산하였다. 이 지표는 발화 속도 차이를 정규화한 상대적 척도로, 추가적인 z-score 변환 없이도 집단 간 비교가 가능하다(Ramus et al., 1999). Dellwo(2006: 235)는 발화 속도 차이에 따른 절대 지속시간의 왜곡 가능성을 지적하며, 언어 간 리듬 비교 시 절대값 대신 변동계수 사용을 제안하였다. White & Mattys(2007) 또한 변동계수가 발화 구조나 절대 길이에 영향을 덜 받는 장점을 보고하였다.
이에 본 연구는 VarcoV를 시간 기반 변동성 지표로 채택하였으며, 포먼트궤적길이 또한 발화 속도의 영향을 받는다는 점에서 Dellwo(2006)의 속도 정규화 원리에 따라 변동계수 형태로 환산하여 분석하였다.
3. 연구 결과
표 5는 학습자(learner, L) 집단과 원어민(native speaker, N) 집단 간 모음 지속시간(ms)의 평균 차이와 통계적 유의성을 비교한 결과이다. /ɔ/, /ø/를 제외한 나머지 8개 모음 /i/, /e/, /ɛ/, /a/, /u/, /o/, /y/, /œ/에서는 집단 간 평균 차이가 통계적으로 유의하지 않았고, 모든 경우 원어민 평균 대비 차이가 20 ms 미만이었다. 반면, /ɔ/는 학습자 평균이 166.39 ms로 원어민 평균 197.08 ms보다 30.7 ms 짧아 유의하였고(p<.001), 최소변별치(20 ms)를 초과하였다. 또한 /ø/ 역시 학습자 220.1 ms, 원어민 243.2 ms로 23.1 ms 차이가 나타나 유의하며(p=.010), 최소변별치를 초과한 것으로 나타났다.
표 6은 두 집단의 F1 자질 비교 결과를 제시한 것이다. /e/는 두 집단 간 차이가 통계적으로 유의하였으며(p<.001), z-score 차이(Δz=1.14)가 ±1.0 임계값을 초과하였다. /i/, /a/, /u/, /o/, /ɔ/, /y/, /ø/는 통계적으로 유의했으나, 모두 임계값(±1.0) 이내였다. 반면 /ɛ/, /œ/는 통계적으로 유의하지 않았으며, 임계값도 초과하지 않았다.
표 7은 두 집단의 F2 자질 비교 결과를 제시한 것이다. /e/, /u/, /ɔ/, /y/는 p<.001, /i/는 p<.01, /œ/는 p<.05로 모두 통계적으로 유의하였으나, /ɛ/, /a/, /o/, /ø/는 유의하지 않았다. /y/를 제외한 나머지 모음의 z-score 차이는 ±1.0 임계값 이내였으며, /y/는 Δz=1.01로 임계값을 미세하게 초과하였다.
그림 1은 학습자(□)와 원어민(○)의 평균 F1-F2 좌표를 음향 공간상에 나타낸 것으로 모음 간 상대적 위치 차이를 직관적으로 보여준다. 원어민 집단의 모음 분포는 좌측에서 전설모음 /i/, /e/, /ɛ/, /a/로 이어지고, 우측에는 후설모음 /u/, /o/, /ɔ/가 배치된 삼각형 형태를 보였다. 전설 원순모음 /y/, /ø/, /œ/는 전설 영역의 중앙부에 위치하였다. 학습자 집단의 모음 분포는 전반적으로 유사한 배열 구조를 보였으나, 전설모음 /i/의 좌표가 원어민보다 상향 이동하였지만, /e/, /ɛ/의 좌표는 하향 이동하였다. 후설모음 특히 /u/, /ɔ/는 중심 방향으로 가까워져 있었다. /a/는 두 집단 모두 중앙 하단 영역에 분포하였다. 이와 같이 원어민 집단의 모음 좌표는 음향 공간상에서 폭넓게 분포하지만, 학습자 집단의 좌표는 중심부로 밀집되는 형태를 보였다.
표 8은 두 집단의 F3 자질 비교 결과를 제시한 것이다. /y/에서 p<.001, /e/, /a/, /u/, /o/, /ɔ/에서 p<.01, /i/, /ɛ/에서 p<.05 수준으로 통계적으로 유의한 차이가 나타났으며, /ø/, /œ/에서는 유의하지 않았다. /y/를 제외한 나머지 모음의 z-score 차이는 ±1.0 임계값 이내였으나, /y/는 Δz=1.03로 임계값을 초과하였다.
표 9는 두 집단의 모음공간면적 비교 결과를 제시한 것이다. 학습자의 평균은 0.470 kHz2, 원어민의 평균은 0.536 kHz2으로, 평균 차이는 –0.066 kHz2이며 통계적으로 유의하지 않았다(p=.875). 이 평균 차이를 원어민의 표준편차(0.216 kHz2)로 나눈 값은 –0.31로, 절대값이 기준으로 설정한 ±1의 범위 내에 해당하였다. 따라서 조음 정확성 판단 기준에서는 정상 범위로 간주되었다.
| VSA (kHz2) | M_L | SD_L | M_N | SD_N | U-test | p-value | ΔM / SDN | |ΔM / SDN|>1 |
|---|---|---|---|---|---|---|---|---|
| 0.470 | 0.102 | 0.536 | 0.216 | 28.0 | 0.875 | –0.306 |
그림 2는 그림 1에서 제시한 평균 F1-F2 좌표를 기반으로 산출한 모음공간면적을 시각화한 것으로 음향 공간의 범위를 시각적으로 보여준다. 원어민 집단의 모음공간은 전설 영역(/i, e, ɛ/)과 후설 영역(/u, o/) 방향으로 확장되어 있으며, 모든 좌표를 연결한 외곽선이 넓은 삼각형 형태를 이룬다. 이에 비해 학습자 집단의 공간은 유사한 구조를 유지하되, 좌표 간 간격이 좁아 전체 면적이 상대적으로 작은 삼각형으로 나타났다.
조음 정확성 자질별 임계값 초과 양상은 다음과 같이 정리된다. F1에서는 /e/에서만 임계값 초과가 관찰되었고, 모음 지속시간에서는 /ɔ/와 /ø/에서만 임계값을 초과하는 값이 나타났다. /y/는 F2와 F3에서 모두 임계값을 초과하였다. 반면 /i, ɛ, a, u, o, œ/는 자질별 평균값 차이가 통계적으로 유의한 경우가 있더라도, 모든 자질에서 설정된 임계값 이내에 위치하였다.
표 10은 두 집단의 VarcoV 비교 결과를 제시한 것이다. 모든 모음에서 집단 간 차이는 통계적으로 유의하였으며(p<.001), 학습자 /ɔ/의 평균값(33.5%, 0.335)은 VarcoV 기준(30%)을 초과하였다. 나머지 /i/ 23.5%(0.235), /e/ 26.6%(0.266), /ɛ/ 25.1%(0.251), /a/ 25.3%(0.253), /u/ 27.9%(0.279), /o/ 29.4%(0.294), /y/ 26.1%(0.261), /ø/ 24.6%(0.246), /œ/ 27.6%(0.276)는 모두 기준 이내에 속하였다.
표 11은 두 집단의 포먼트궤적길이 변동계수(CV)의 비교 결과를 제시한 것이다. 모든 모음의 변동계수는 전반적으로 높게 나타났으며, /i/(68.1%), /e/(64.0%), /o/(59.9%)가 가장 컸다. /ɛ/(49.6%), /u/(55.6%), /y/(56.3%)는 중간 수준이었고, /a/(42.4%)와 /ɔ/(40.6%)는 상대적으로 낮았다. /ø/(46.5%)와 /œ/(54.5%) 또한 변동계수가 높게 나타났다. 집단 간 변동계수 비율(CV ratio)을 기준으로 할 때, CV ratio≥1.2를 초과한 모음은 /ø/ 한 개였다.
표 12는 두 집단의 포먼트분산(formant dispersion) 비교 결과를 제시한 것이다. /e/(SD ratio=1.01, p<.001), /ɛ/(1.16, p=.008), /a/(1.24, p<.001), /u/(0.99, p=.004), /o/(0.89, p=.004), /ɔ/(0.83, p<.001)에서 통계적으로 유의한 차이가 나타났다. 한편, /i/(0.90, p=.159), /ø/(0.89, p=.909), /œ/(0.71, p=.217)는 유의하지 않았다. 모든 모음 중 /y/(SD ratio=1.58, p<.001)만이 임계값(≥1.5)을 초과하였으며, 나머지 모음은 모두 기준 이내였다.
표 13은 두 집단의 F1/F2 비율 비교 결과를 제시한 것이다. /e/(p<.001), /ɛ/(p=.011), /a/(p=.001), /o/(p=.020), /ɔ/(p=.011), /ø/(p=.001), /y/(p=.006)에서 통계적으로 유의한 차이가 나타났지만, /i/, /u/, /œ/는 유의하지 않았다. 변동성 기준(±10%)을 초과한 모음은 /e/(+61.88%), /ɛ/(+22.13%), /i/(+14.97%), /ø/(+13.73%)로 확인되었다.
표 14는 두 집단의 F2/F3 비율 비교 결과를 제시한 것이다. /i/(p<.001), /e/(p=.001), /a/(p=.001), /u/(p<.001), /o/(p=.021), /ɔ/(p<.001)는 통계적으로 유의한 차이를 보였으며, /ɛ/, /y/, /ø/, /œ/는 유의하지 않았다. 변동성 기준(±10%)을 초과한 모음은 /u/(+13.81%), /ɔ/(–14.65%), /e/(–10.99%)로 나타났다.
조음 변동성 자질에서의 임계값 초과 양상은 다음과 같다. VarcoV에서는 /ɔ/에서만 임계값 초과가 확인되었고, 포먼트궤적길이(FTL)에서는 /ø/, 포먼트분산(FD)에서는 /y/에서만 임계값 초과가 나타났다. 비율 자질의 경우 F1/F2 비율에서는 /i, e, ɛ, ø/가, F2/F3 비율에서는 /e, u, ɔ/가 각각 임계값을 초과하였다. 요약하면, 변동성 자질에서 임계값 초과는 주로 /e, ɔ, y, ø/에 포함된 모음에서 관찰되었고, 나머지 모음에서는 해당 현상이 관찰되지 않았다.
표 15는 프랑스어 10개 모음(/i/, /e/, /ɛ/, /a/, /u/, /o/, /ɔ/, /y/, /ø/, /œ/)에 대해, 학습자와 원어민 간 각 음향 자질의 통계적 유의성과(p<.05), 조음 정확성 및 변동성 차원에서의 임계값 초과 여부를 구분하여 제시한 것이다.
먼저 모음별(가로축)로 보면, 정확성 차원에서 한 개 이상의 자질에서 학습자와 원어민 간 통계적으로 유의한 차이를 보인 모음은 /i, e, ɛ, a, u, o, ɔ, y, ø, œ/로, 10개 모든 모음에서 차이가 확인되었다. 그러나 임계값을 한 개 이상 자질에서 초과한 모음은 /e/(F1), /ɔ/와 /ø/(모음 지속시간), /y/(F2, F3)로 나타났다. 반면 /i, ɛ, a, u, o, œ/는 통계적으로 유의한 차이가 있더라도 모든 자질이 임계 범위 이내에 속하였다.
변동성 차원에서 한 개 이상의 자질에서 학습자와 원어민 간 통계적으로 유의한 차이를 보인 모음은 /œ/를 제외한 /i, e, ɛ, a, u, o, ɔ, y, ø/의 9개 모음이었다. 이 가운데 임계값을 초과한 모음은 /i/와 /ɛ/(F1/F2 비율), /u/(F2/F3 비율), /e/(F1/F2, F2/F3 비율), /ɔ/(F2/F3 비율, VarcoV), /y/(포먼트분산), /ø/(포먼트궤적길이, F1/F2 비율)로 나타났다. 나머지 /a/, /o/, /œ/는 모든 자질에서 임계값을 초과하지 않았다.
다음으로 자질별(세로축)로 보면, 정확성 차원에서 모음 지속시간은 /ɔ/와 /ø/에서 학습자와 원어민 간 차이가 통계적으로 유의하였으며, 두 모음 모두 임계값을 초과하였다. F1은 /ɛ/와 /œ/를 제외한 나머지 모음에서 통계적으로 유의하였고, 이 중 /e/가 임계값을 초과하였다. F2는 /ɛ/, /a/, /o/, /ø/를 제외한 나머지 모음에서 유의하였으며, /y/만 임계값을 초과하였다. F3은 /ø/와 /œ/를 제외한 모든 모음에서 유의하였으며, 이 중 /y/만 임계값을 초과하였다.
변동성 차원에서는 VarcoV가 모든 모음에서 통계적으로 유의하였으며, /ɔ/가 임계값(30%)을 초과하였다. 포먼트궤적길이는 /i/, /ɛ/, /a/, /ø/, /œ/를 제외한 나머지 모음에서 유의하였으며, /ø/만 임계값(CV ratio ≥1.2)을 초과하였다. 포먼트분산은 /i/, /ø/, /œ/를 제외한 나머지 모음에서 유의하였으며, /y/가 임계값(SD ratio ≥1.5)을 초과하였다. F1/F2 비율은 /i/, /u/, /œ/를 제외한 나머지 모음에서 유의하였으며, /i/, /e/, /ɛ/, /ø/가 ±10% 기준을 초과하였다. F2/F3 비율은 /ɛ/, /y/, /ø/, /œ/를 제외한 나머지 모음에서 유의하였으며, /e/, /u/, /ɔ/가 ±10% 기준을 초과하였다.
요컨대, 정확성 차원에서는 /e/, /ɔ/, /y/, /ø/가, 변동성 차원에서는 /i/, /e/, /ɛ/, /u/, /ɔ/, /y/, /ø/가 각각 하나 이상의 자질에서 임계값을 초과한 것으로 나타났다.
4. 논의
본 연구의 핵심 기여는 프랑스어 구강모음 발화를 조음의 정확성과 변동성이라는 두 차원으로 구분하고, 각 차원을 구성하는 음향 자질에 대해 선행연구와 원어민 집단의 분포에 근거한 자질별 임계값을 도입함으로써 학습자 실현의 임계값 초과 여부를 정량적으로 평가할 수 있는 분석 틀을 제시한 데 있다. 이 분석 틀을 통해 열 개 프랑스어 구강모음 각각에 대해 어떤 음향 자질에서 어느 범위까지 원어민 집단의 참조 범위를 벗어나는지가 모음·자질 단위로 명시되며, 조음의 정확성과 변동성 자질을 동시에 고려한 모음별 조음 특성의 비교·기술이 가능해진다.
본 장에서는 제안된 자질별 최소변별치 기준이 실제 발화 데이터에서 어떤 방식으로 작동했는지를 검토한다. 임계값의 설정 근거는 2.3절에서 제시하였으며, 여기서는 각 기준이 데이터의 통계적 분포와 최소변별치 범위 내에서 실제 경계 기능을 수행하였는지를 살펴본다.
조음 정확성 분석에는 지속시간, 포먼트 주파수(F1, F2, F3), 모음공간면적의 다섯 가지 자질이 포함되었다. 지속시간의 경우, 두 집단 간 평균 차이는 대부분 10 ms 이하였으며, 20 ms를 초과한 모음은 /ɔ/와 /ø/로 제한되었다. 초과된 차이는 모두 20–25 ms 범위에 분포하였고, 이는 문헌에서 제시된 최소변별치 구간과 일치한다. 즉, 지속시간 임계값은 실제 발화에서 청각적으로 구분 가능한 시간 차이의 경계를 반영하였다.
포먼트 주파수의 검증은 표준화된 차이(|Δz|)를 실제 주파수 차이(ΔHz)로 환산하여 수행하였다.
여기서 Δz는 학습자와 원어민 집단 간의 평균 z-score 차이, SDnative speaker는 원어민 집단의 표준편차(Hz)이다. 환산 결과, F1, F2, F3의 ΔHz는 각각 약 60, 200, 400 Hz 부근에서 경계를 형성하였으며, 이는 기존 연구에서 제시된 최소변별치 값과 수치적으로 대응하였다. 표 15에 따르면, 포먼트 자질에서 평균 차이의 통계적 유의성과 임계 초과 여부는 완벽하게 일치하지는 않았다. ‘비유의·초과’의 조합은 없었으나, /i/, /u/, /o/와 같은 일부 모음에서는 ‘유의·비초과’ 조합이 확인되었다. 이러한 결과는 임계값이 단순한 평균 차이에 종속되지 않고, 실제로 지각 가능한 음향 차이 수준에서 작동했음을 보여준다.
모음공간면적의 임계값(±1 SD)은 집단 간 조음 좌표 분포를 비교하기 위한 기준으로 적용되었다. ±1 SD 범위 내의 차이는 통계적으로 유의하지 않았으며(p=.875), 두 집단 간 차이는 개별 모음이 아닌 전체 조음좌표의 수축 또는 확장 형태로 나타났다. 그림 2에서도 원어민의 모음공간 확장은 특정 모음의 편차라기보다 전체 좌표가 ±1 SD 외측 경계에 위치한 결과로 확인된다. 따라서 ±1 SD는 개별 음소의 변이를 판단하기보다는 집단 평균 좌표의 분포 경계를 정량적으로 구획하는 기준으로 작용하였다.
지속시간, 포먼트 주파수, 모음공간면적의 임계 초과는 모두 제한된 범위에서만 나타났으며, 특정 모음과 자질 조합에 국한되었다. 이는 임계값이 전체 자질에 일률적으로 적용되지 않고, 실제 음향 분포가 통계적 중심을 벗어나는 구간에서만 작동했음을 보여준다. 조음 정확성 기준은 중심 분포를 유지하면서도 청각적으로 구분 가능한 차이를 선별하는 수치적 경계로 기능하였다.
조음 변동성의 임계값은 시간적·공간적·비율적 세 범주로 나뉘어 적용되었다. 각 기준은 변동 폭이 실제 음향 분포의 경계를 벗어나는 구간에서만 작동하여, 평균 중심의 단순 분산보다 조음 변동의 구체적 양상에 민감하게 반응하였다.
시간 기반 자질인 VarcoV의 30% 기준은 전체 모음 중 /ɔ/(33.5%)에서만 초과가 확인되었다. 대부분의 모음은 기준 이내에 분포하였으며, 초과된 경우는 학습자의 동일 모음 반복 발화에서 지속시간 변동 폭이 원어민보다 큰 사례에 해당한다. 이는 발화 속도나 문장 구조에 따른 변동성이 완전히 제거되지 않더라도, 30% 수준이 조음 시간 조절의 경계를 반영함을 보여준다.
공간 기반 자질인 포먼트궤적길이와 포먼트분산은 유사한 작동 양상을 보였다. 포먼트궤적길이의 CV ratio(≥1.2)는 /ø/에서만 초과되었고, 포먼트분산의 SD ratio(≥1.5) 역시 /y/에서만 초과가 확인되었다. 두 자질 모두 대부분 모음에서 기준 이내로 나타났으며, 초과된 경우는 발화 내 포먼트 이동 폭이 상대적으로 크게 변동한 사례에 해당한다. 이러한 결과는 두 지표 모두 포먼트 이동의 평균 크기보다는 발화마다 그 변동 폭이 얼마나 달라지는지에 더 민감하게 반응했음을 보여준다. 다시 말해, 변동성은 포먼트의 절대값이 아니라, 반복 발화 간 포먼트 이동이 얼마나 넓게 퍼져 있는지를 기준으로 평가되었다.
비율 기반 자질(F1/F2, F2/F3)은 절대 포먼트 값의 차이를 보완하는 기준으로 작동하였다. F1/F2 비율에서는 /i/, /e/, /ɛ/, /ø/, F2/F3 비율에서는 /e/, /u/, /ɔ/에서 초과가 확인되었다. 이는 평균 포먼트 위치가 유사하더라도 포먼트 간 비율이 달라질 때 조음 구조의 세부적 차이가 드러날 수 있음을 보여준다.
이러한 결과는 변동성 관련 임계값들이 시간적·공간적·비율적 축에서 독립적으로 작동했음을 보여준다. VarcoV와 포먼트궤적길이는 시간적 조절 폭의 차이를 반영하였고, 포먼트분산과 비율 자질은 음향 분포의 확장 및 포먼트 간 상호 관계를 나타냈다. 자질별 초과 항목의 분포 차이는 각 기준이 발화 내에서도 서로 다른 조음 변화를 구분하도록 작용했음을 보여준다.
조음의 정확성과 변동성의 두 차원에서 나타난 임계값 초과 양상을 종합하면, 한국인 학습자의 프랑스어 모음 난이도는 세 수준으로 구분할 수 있다. 먼저 /e, ɔ, y, ø/는 여러 자질에서 반복적으로 임계값을 초과하여 고난도 모음군에 속한다. 반대로 /i, a, u/는 모든 자질에서 원어민 집단의 참조 범위와 임계값 이내에 머무르므로 비교 기준인 저난도 모음군으로 간주할 수 있다. /ɛ, o, œ/는 일부 자질에서만 임계값을 부분적으로 초과하여, 두 집단의 중간에 위치하는 중간 난이도 모음군으로 정리된다.
5. 결론
본 연구는 제2언어 발화 연구가 평균값 중심의 조음 정확성 평가에 머물러 온 한계를 보완하고, 정확성과 변동성의 두 측면에서 프랑스어 구강모음 산출 특성을 정량적으로 평가할 수 있는 임계값 기반 분석 체계를 제시하였다. 연구 대상은 프랑스어 10개 구강모음(/i, e, ɛ, a, u, o, ɔ, y, ø, œ/)이며, DELF B1 이상의 숙련도를 지닌 한국인 학습자와 프랑스어 원어민의 낭독 발화를 비교하였다. 각 음향 자질의 최소변별치와 통계적 근거를 토대로 임계값을 설정하고, 이를 통계 검정 결과와 함께 해석하였다.
분석 결과, 정확성 차원에서는 /e/, /ɔ/, /y/, /ø/에서 임계값을 초과하였다. /e/는 F1, /ɔ/와 /ø/는 모음 지속시간, /y/는 F2와 F3에서 각각 기준을 넘었다. 이는 학습자의 모음 산출이 포먼트 위치뿐만 아니라 조음 움직임의 조절 범위에서도 원어민과 달랐음을 시사한다. 반면 /i/, /ɛ/, /a/, /u/, /o/, /œ/는 통계적으로 유의미한 차이가 있더라도 모두 임계 범위 안에 포함되었다.
변동성 차원에서는 시간적, 공간적, 비율적 자질이 서로 다른 방식으로 작동하였다. 시간 기반 자질인 VarcoV는 /ɔ/에서만 임계값을 초과하였으며, 공간 기반 자질 중 포먼트궤적길이는 /ø/에서, 포먼트분산은 /y/에서 각각 기준을 초과하였다. 비율 기반 자질의 경우, F1/F2 비율에서는 /i/, /e/, /ɛ/, /ø/가, F2/F3 비율에서는 /e/, /u/, /ɔ/가 ±10% 이상의 변동을 보였다. 이에 따라 /e/, /ɔ/, /y/, /ø/는 정확성과 변동성 두 차원 모두에서 하나 이상의 자질이 기준을 초과하였다. 또한 시간·공간·비율 자질은 각각 서로 다른 모음에서 초과가 나타나, 세 범주가 조음 변동의 서로 다른 측면을 독립적으로 포착하는 것을 확인할 수 있었다.
이러한 결과는 임계값 체계가 통계적 유의성 검정만으로는 드러나지 않는 세밀한 조음 차이를 정량적으로 변별할 수 있음을 보여준다. 임계값 초과 여부는 단순한 평균값 차이가 아니라, 지각 가능한 조음 거리와 발화 간 조음 조절 폭의 차이를 반영하는 기준으로 작동하였다. 따라서 본 연구의 임계값 기반 접근은 제2언어 발화 분석에서 조음 정확성과 변동성을 함께 평가할 수 있는 경험적 근거 체계로서 방법론적 의의를 가진다.
본 연구는 프랑스어 한국인 학습자의 /e/, /ɔ/, /y/, /ø/에서 자질별 조음 조절의 불균형이 뚜렷하게 나타남을 확인하였다. 이는 학습자의 조음 체계가 단일 음향 자질의 차이만으로는 설명될 수 없으며, 시간적 조절, 공간적 분포, 비율적 관계가 상호작용하는 다차원적 조음 조절 과정 속에서 형성된다는 것을 시사한다. 향후 연구에서는 프랑스어 비강모음을 포함하고, 낭독 발화뿐 아니라 자유 발화 및 숙련도별 발화 데이터를 대상으로 본 연구의 분석 틀을 확장·검증할 필요가 있다. 아울러 본 연구에서 제시한 조음 기반 임계값이 프랑스어 원어민의 지각 판단과 어떤 양상으로 대응하는지, 지각 실험을 통해 체계적으로 검증할 필요가 있다.






