한국학중앙연구원 공동 연구 과제 |
2006 구비문학 음성 자료와 텍스트 자료의 동기화 연구 연구결과보고서

연구 과제명

구비문학 음성 자료와 텍스트 자료의 동기화 연구
The Study of Synchronizing the Audio files with the Electronic Text of Korean Folklore

연구 기간

2006. 3. ~ 2006. 11.

참여 연구진

역할 이름 소속 직위
연구 책임 김병선 한국학중앙연구원 교수
공동 연구원 소강춘 전주대학교 교수
공동 연구원 이건식 한국학중앙연구원 전문위원
공동 연구원 김태환 한국학중앙연구원 강사

연구결과

  연구성과

이 연구는 한국학중앙연구원에 보존되어 있는 한국 구비문학 조사 사업의 음성 채록 자료와 그 전자 텍스트를 동기화하여 제공하는 정보 서비스 방안 및 데이터베이스 수록 방안을 모색한 것이다. 과제의 이름은 “구비문학 음성 자료와 텍스트 자료의 동기화 연구(The Study of Synchronizing the Audio files with the Electronic Text of Korean Folklore)”이다.
『한국구비문학대계』전85권은 한국학중앙연구원의 대표적인 한국학 자료 조사 사업의 결과로서, 북한을 제외한 전국토의 이야기를 수집하여 텍스트 형태로 전사하고, 아울러 고유한 체계로 분류하여 이를 책으로 출판한 것이다. 나아가 한국학정보센터가 설립된 이래로 1990년대 후반부터는 이 자료의 정보화를 기획하고 이를 실행에 옮겼다. 일차적으로는 21세기 세종계획을 통하여, 이차적으로는 정보통신부의 정보화사업 지원을 받은 한국학전자도서관 사업을 통하여 그 전량이 전자 정보로 입력되었다. 한편 구비문학의 목록 자료는 기초 학문 사업으로 정리되었다. 또한 조사 실황이 녹음되어 있는 음성 자료(오디오 테이프)에 대한 국내 학계의 관심이 높아지는 가운데, 한국역사정보통합사업을 통해 그 전량이 전자 정보로 변환되었다.
그런데 이러한 일련의 전자정보화 작업을 진행하는 동안에 조사 자료 목록의 재정비하게 되면서 기존의 서적 출판물 및 인터넷 서비스 자료에 누락된 기초 조사 자료들이 새롭게 발견되었다. 당초에 구비문학 조사 테이프는 훈련된 학자들에 의해 원고지에 전사되었고, 일련의 편집 과정을 거친 뒤에 『한국구비문학대계』 시리즈로 출판되었는데, 조사 자료의 목록을 재정비한 결과, 책으로 출판된 설화는 전체 수집 자료의 80% 수준에 그쳤던 사실이 드러나게 된 것이다. 요컨대 한국역사정보통합사업을 통해 구축된 오디오 테이프는 그 전량이 음성 파일로 변환되었으나, 일찍이 서적 출판물을 제작하기 위하여 마련한 전사 텍스트는 그 전량을 대상으로 삼았던 것이 아니다. 결과적으로 음성 파일은 있지만 전사 텍스트가 없는 자료가 적지 않게 남아 있었다. 당연히 이 자료들은 책으로 출판된 일도 없었다.
따라서 기존의 작업을 보완할 필요성과, 이것을 또한 첨단 정보화 사회의 요구에 부응할 수 있도록 가공할 필요성이 크게 부각되었다. 구비문학 텍스트 자료 및 음성 자료의 인터넷 검색과 접근이 현재도 원활하게 이루어지고 있기는 하지만, 현재의 시스템 상에서는 문자 텍스트 자료와 음성 자료를 각각 따로 확인할 수밖에 없는 상황이다. 그리하여 우리는 이러한 한계를 능동적으로 극복하려는 시도로써 ‘음성 자료와 텍스트 자료의 동기화 연구’를 기획하고, 이로써 1개년 간의 시범 사업을 수행하였다. 사업의 핵심은 기존의 출판물을 제작하는 데서 누락된 음성 자료를 새롭게 전사하고, 이렇게 해서 얻어진 텍스트 자료를 하나의 프로세스를 통하여 음성 자료와 동시에 제공하는 프로그램 모델을 개발하는 것이었다.
우리의 이 사업은 향후 『한국구비문학대계』를 새로운 정보 기술 환경에서 높은 수준의 콘텐츠로 가공하는 작업의 교두보 역할을 담당하게 될 바로서, 특히 기존의 작업을 통해 입력한 텍스트 자료와 음성 자료를 상호 연동하도록 조직함으로써 높은 수준의 정보 서비스를 가능하도록 하는 방안을 찾았다는 데 큰 의의가 있다고 하겠다. 아래의 자료는 사업의 결과물을 예시한 것이다.

  연구 결과물

가. 연구사업 개괄
      김병선 교수(한국학중앙연구원)

나. 텍스트와 음성 파일의 동기화 및 세그먼테이션
      소강춘 교수(전주대학교)

다. 구비문학 전산자료의 현황과 미전사 목록의 확정
      이건식 전문위원(한국학중앙연구원)

라. 구비문학대계 습유편 집성의 필요성과 미전사분 전사의 원칙
      김태환 책임연구원(한국학중앙연구원)

마. 연구보고서(다운로드)

바. 학술대회 : 이야기, 그 디지털 보존과 활용
- 일시 : 2006년 11월25일 오전10시
- 장소 : 한국학중앙연구원 한국학정보센터 회의실
- 사회 : 장노현 연구교수(한국학중앙연구원)
- 논평자
손희하 교수(국립국어원 / 전남대)]
이종주 교수 (전북대)
서정섭 교수(서남대)
울리야 (한국학중앙연구원 한국학대학원 어문 전공)
- 토론문(다운로드)

사. 구비문학 녹취 자료와 전사 텍스트 열람(한국학 디지털 아카이브시스템)
허심곡(녹취 자료) : 황룡 7앞
허심곡(전사 텍스트)
제목을 알 수 없음(녹취 자료) : 황룡 10앞
제목을 알 수 없음(전사 텍스트)
열녀(황주 변씨)(녹취 자료) : 북이 2뒤
열녀(황주 변씨)(전사 텍스트)
3·1운동 의거(계속)(녹취 자료) : 북이 2앞뒤
3·1운동 의거(계속)(전사 텍스트)
임진란 민담(이율곡)(녹취 자료) : 북이 4뒤
임진란 민담(이율곡)(전사 텍스트)
두사충, 박상희 이야기(녹취 자료) : 북이 4뒤
두사충, 박상희 이야기(전사 텍스트)
쥐약 쓰는 이야기(녹취 자료) : 장성 7뒤
쥐약 쓰는 이야기(전사 텍스트)
제목 미정(녹취 자료) : 장성 8앞
제목 미정(전사 텍스트)
교훈적인 이야기(녹취 자료) : 장성 8앞
교훈적인 이야기(전사 텍스트)
맹종의 죽순얻기와 왕상의 잉어얻기(녹취 자료) : 장성 8앞
맹종의 죽순얻기와 왕사의 잉어얻기(전사 텍스트)
몽사로 빨래터에서 아이 낳은 이야기(녹취 자료) : 장성 10뒤
몽사로 빨래터에서 아이 낳은 이야기(전사 텍스트)