어휘 마크업 틀
어휘 마크업 틀(Lexical Markup Framework)는 자연언어처리 (NLP) 와 기계가독형 사전 (MRD) 어휘 등의 구성에 필요한 일반 표준 틀을 정의하기 위해서 국제 표준화 기구 ISO/TC37에서 진행 중인 작업이다. 과제의 범위는 다중언어 소통과 문화적 다양성에 관련하여 언어자원에 관련된 원칙과 방법의 표준화이다.
어휘 마크업 틀(LMF)의 목적
어휘 마크업 틀의 목표는 어휘 자원을 생성하고 사용하기 위한 일반적 모형을 제공하고, 이런 자원들간의 데이터 교환을 관리하고, 많은 양의 개인적 전자 자원을 방대한 국제 전자 자원으로 통합 가능하도록 하는 것이다.
어휘 마크업 틀(LMF)에서 개인적 예제의 형태는 단일언어, 이중 언어, 다중 언어의 어휘 자원을 포함할 수 있다. 같은 명세사항은 작거나 큰 어휘사전, 간단하거나 복잡한 어휘사전, 문어나 구어의 어휘 표현 모두에 사용가능하다. 기술의 범위는 형태, 구문론, 계산 의미론, 기계보조 번역 등이다. 어휘 마크업 틀에 포함 가능한 언어는 유러피안 언어에 국한하지 않고 모든 자연 언어를 포괄한다. 목표로 하는 자연언어처리 응용 프로그램은 제한적이지 않다. 어휘 마크업 틀(LMF)은 워드넷, EDR, PAROLE 등 대부분의 어휘 사전을 표현할 수 있다.
어휘 마크업 틀(LMF)의 역사
과거부터 어휘 표준화는 GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE, ISLE 등과 같은 과제를 통하여 연구/개발되었다. 그 결과로, ISO/TC37 국가 대의원들은 자연언어처리와 어휘 표현을 표준화하기로 결정했다. 어휘 마크업 틀(LMF) 작업은 미국 대표에 의해서 공포된 새 작업항목 제안을 통하여 2003년 여름에 시작하였다. 2003년 가을에 프랑스 대표는 자연언어 어휘에 대한 데이터 모형에 관한 기술 제안을 냈다. 2004년 초에 ISO/TC37 위원회는 Nicoletta Calzolari(이탈리아)를 작업반장으로 하고 Gil Francopoulo (프랑스) 와 Monte George (미국)를 편집자로 하는 일반 ISO 과제를 만들기로 결정했다. 이후 오늘에 이르기까지, 13판까지 쓰여졌고, (국가 전문가에게) 발송되었고, 비평을 받고, 다양한 ISO 기술 회의에서 논의되고 있다.
현재 상태
ISO 번호는 24613이다. 어휘 마크업 틀(LMF) 세부규정은 현재(2008년 3월) 국제 표준 최종안(Final Draft for International Standard)이다. 최종 발행을 2008년 9월까지 하려는 일정을 가지고 있다.
ISO/TC37 표준 중에 하나인 어휘 마크업 틀(LMF)
ISO/TC37 표준은 현재 고수준의 세부규정으로 다듬어지고 있고 단어 분할 (ISO 24614), 주석(ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF, and ISO 24617-1 aka SemAF/Time), 특성 구조 (ISO 24610), 멀티미디어 가변공간 (ISO 24616 aka MLIF), 어휘 사전 (ISO 24613) 등을 다루고 있다. 이러한 표준들은 상수, 다시 말해 데이터 분류(ISO 12620 개정), 언어 코드 (ISO 639), 원고 코드 (ISO 15924), 국가 코드 (ISO 3166), 유니코드 (ISO 10646) 등에 관련된 기초급의 규정화에 바탕을 두고 있다.
2 수준의 조직이 아래의 일반적이고 간단한 규칙을 가진 밀접한 표준군을 구성한다.
- 고수준의 규정화는 표준화된 상수를 가지고 꾸며지는 구조적 요소를 제공한다.
- 기초수준의 규정화는 메타데이터로 표준환된 상수를 제공한다.
어휘 마크업 틀(LMF)에 사용된 핵심 표준
/여성/ 이나 /타동사/ 같은 언어적 상수는 어휘 마크업 틀(LMF)에는 정의되지 않았다. 하지만, ISO/IEC 11179-3:2003[1]에 따라 ISO/TC37을 통하여 국제 자원으로써 유지되는 데이터 분류 등록(Data Category Registry)에는 기록되어 있다. 그리고, 이러한 상수들은 고수준의 구조적 요소를 수식하는데 사용되곤 한다.
어휘 마크업 틀(LMF) 규정은 객체 관리 그룹(OMG)에 따라 정의된 통합 모형 언어(UML)의 모형화 원칙을 따른다. 구조는 UML 클래스 다이아그램에 의하여 규정된다. 그 예들은 UML 인스탄스(또는 객체) 다이아그램을 통하여 표현된다.
LMF 문서의 부록에서 주어진 XML DTD를 추가해 보자.
모형 구조
어휘 마크업 틀(LMF)는 다음과 같은 요소로 구성된다:
- 어휘 항목에서 정보의 기본 체계를 기술하는 구조 골격으로서 핵심 패키지
- 세부 어휘 자원에 요구되는 추가적인 요소를 연결하는 핵심 요소의 재사용을 기술하는 틀안에서 표현되는 핵심 패키지의 확장
형태론, MRD, NLP 구문론, NLP 의미론, NLP 다중언어 표기법, NLP 형태적 양식, 다중단어 표현 양식, 제한 표현 양식에서 확장이 구체적으로 이루어졌다.
간단한 예제
아래의 예제를 보면, 어휘 항목은 표제어 clergyman와 2개의 굴절형 clergyman, clergymen로 이루어졌다. 언어 부호화는 전체 어휘 자원으로 이루어진다. 언어값은 아래 UML 예제 다이아그램에서 보는 바와 같이 전체 어휘로 이루어진다.
어휘 자원, 전체 정보, 어휘, 어휘 항목, 표제어, 단어 형태 요소들은 어휘의 구조를 정의한다. 이런한 것들은 어휘 마크업 틀(LMF) 문서에서 규정화됐다. 이와 반대로, 언어부호화, 언어, 형태소, 일반명사, 인쇄형, 문법 번호, 단수, 복수 등은 데이터 분류 등록(DCR)에서 가져온 데이터 분류이다. 이러한 표시들은 구조를 정돈한다. ISO 639-3, clergyman, clergymen 값들은 순수 문자열이다. eng값은 ISO 639-3에서 정의된 언어 목록에서 가져온다.
dtdVersion 과 feat같은 추가적인 정보를 가지고, 같은 데이터가 다음과 같은 XML 부분으로 표현될 수 있다:
<LexicalResource dtdVersion="15">
<GlobalInformation>
<feat att="languageCoding" val="ISO 639-3"/>
</GlobalInformation>
<Lexicon>
<feat att="language" val="eng"/>
<LexicalEntry>
<feat att="partOfSpeech" val="commonNoun"/>
<Lemma>
<feat att="writtenForm" val="clergyman"/>
</Lemma>
<WordForm>
<feat att="writtenForm" val="clergyman"/>
<feat att="grammaticalNumber" val="singular"/>
</WordForm>
<WordForm>
<feat att="writtenForm" val="clergymen"/>
<feat att="grammaticalNumber" val="plural"/>
</WordForm>
</LexicalEntry>
</Lexicon>
</LexicalResource>
이 예제는 매우 간단한 예제이다. 어휘 마크업 틀(LMF)는 좀 더 복잡한 언어학적 기술을 표현할 수 있다. 다만 이러한 경우에 XML 태깅도 더 복잡해진다.
같이 보기
- 계산 어휘론
- 어휘 의미론
- 형태론
- 형태론 (언어학)
- 기계 번역: 다중언어 표기법의 다른 형태(접근 절을 볼 것)
- 형태론적 양식: 어형 변화와 어형 변화 양식 사이의 차이
- 워드넷: 제일 유명한 영어에 대한 의미 어휘사전 영어
외부 링크
관련 웹사이트
어휘 마크업 틀(LMF)에 관한 논의 내용
- Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: 자연언어처리 어휘에서 의미 정보를 위한 어휘 마크업 틀 ISO 표준 [2]
- 언어자원과 평가 LREC-2006/Genoa: 어휘 마크업 틀(LMF) [3]
관련 논의
모듈:Authority_control 159번째 줄에서 Lua 오류: attempt to index field 'wikibase' (a nil value).
- 스크립트 오류가 있는 문서
- 위키데이터 속성 P18을 사용하는 문서
- 위키데이터 속성 P41을 사용하는 문서
- 위키데이터 속성 P94를 사용하는 문서
- 위키데이터 속성 P117을 사용하는 문서
- 위키데이터 속성 P154를 사용하는 문서
- 위키데이터 속성 P213을 사용하는 문서
- 위키데이터 속성 P227을 사용하는 문서
- 위키데이터 속성 P242를 사용하는 문서
- 위키데이터 속성 P244를 사용하는 문서
- 위키데이터 속성 P245를 사용하는 문서
- 위키데이터 속성 P268을 사용하는 문서
- 위키데이터 속성 P269를 사용하는 문서
- 위키데이터 속성 P271을 사용하는 문서
- 위키데이터 속성 P347을 사용하는 문서
- 위키데이터 속성 P349를 사용하는 문서
- 위키데이터 속성 P350을 사용하는 문서
- 위키데이터 속성 P373을 사용하는 문서
- 위키데이터 속성 P380을 사용하는 문서
- 위키데이터 속성 P396을 사용하는 문서
- 위키데이터 속성 P409를 사용하는 문서
- 위키데이터 속성 P428을 사용하는 문서
- 위키데이터 속성 P434를 사용하는 문서
- 위키데이터 속성 P435를 사용하는 문서
- 위키데이터 속성 P436을 사용하는 문서
- 위키데이터 속성 P454를 사용하는 문서
- 위키데이터 속성 P496을 사용하는 문서
- 위키데이터 속성 P549를 사용하는 문서
- 위키데이터 속성 P650을 사용하는 문서
- 위키데이터 속성 P651을 사용하는 문서
- 위키데이터 속성 P691을 사용하는 문서
- 위키데이터 속성 P716을 사용하는 문서
- 위키데이터 속성 P781을 사용하는 문서
- 위키데이터 속성 P791을 사용하는 문서
- 위키데이터 속성 P864를 사용하는 문서
- 위키데이터 속성 P865를 사용하는 문서
- 위키데이터 속성 P886을 사용하는 문서
- 위키데이터 속성 P902를 사용하는 문서
- 위키데이터 속성 P906을 사용하는 문서
- 위키데이터 속성 P947을 사용하는 문서
- 위키데이터 속성 P950을 사용하는 문서
- 위키데이터 속성 P966을 사용하는 문서
- 위키데이터 속성 P982를 사용하는 문서
- 위키데이터 속성 P1003을 사용하는 문서
- 위키데이터 속성 P1004를 사용하는 문서
- 위키데이터 속성 P1005를 사용하는 문서
- 위키데이터 속성 P1006을 사용하는 문서
- 위키데이터 속성 P1015를 사용하는 문서
- 위키데이터 속성 P1045를 사용하는 문서
- 위키데이터 속성 P1048을 사용하는 문서
- 위키데이터 속성 P1053을 사용하는 문서
- 위키데이터 속성 P1146을 사용하는 문서
- 위키데이터 속성 P1153을 사용하는 문서
- 위키데이터 속성 P1157을 사용하는 문서
- 위키데이터 속성 P1186을 사용하는 문서
- 위키데이터 속성 P1225를 사용하는 문서
- 위키데이터 속성 P1248을 사용하는 문서
- 위키데이터 속성 P1273을 사용하는 문서
- 위키데이터 속성 P1315를 사용하는 문서
- 위키데이터 속성 P1323을 사용하는 문서
- 위키데이터 속성 P1330을 사용하는 문서
- 위키데이터 속성 P1362를 사용하는 문서
- 위키데이터 속성 P1368을 사용하는 문서
- 위키데이터 속성 P1375를 사용하는 문서
- 위키데이터 속성 P1407을 사용하는 문서
- 위키데이터 속성 P1556을 사용하는 문서
- 위키데이터 속성 P1584를 사용하는 문서
- 위키데이터 속성 P1695를 사용하는 문서
- 위키데이터 속성 P1707을 사용하는 문서
- 위키데이터 속성 P1736을 사용하는 문서
- 위키데이터 속성 P1886을 사용하는 문서
- 위키데이터 속성 P1890을 사용하는 문서
- 위키데이터 속성 P1907을 사용하는 문서
- 위키데이터 속성 P1908을 사용하는 문서
- 위키데이터 속성 P1960을 사용하는 문서
- 위키데이터 속성 P1986을 사용하는 문서
- 위키데이터 속성 P2041을 사용하는 문서
- 위키데이터 속성 P2163을 사용하는 문서
- 위키데이터 속성 P2174를 사용하는 문서
- 위키데이터 속성 P2268을 사용하는 문서
- 위키데이터 속성 P2349를 사용하는 문서
- 위키데이터 속성 P2418을 사용하는 문서
- 위키데이터 속성 P2456을 사용하는 문서
- 위키데이터 속성 P2484를 사용하는 문서
- 위키데이터 속성 P2558을 사용하는 문서
- 위키데이터 속성 P2750을 사용하는 문서
- 위키데이터 속성 P2980을 사용하는 문서
- 위키데이터 속성 P3223을 사용하는 문서
- 위키데이터 속성 P3233을 사용하는 문서
- 위키데이터 속성 P3348을 사용하는 문서
- 위키데이터 속성 P3372를 사용하는 문서
- 위키데이터 속성 P3407을 사용하는 문서
- 위키데이터 속성 P3430을 사용하는 문서
- 위키데이터 속성 P3544를 사용하는 문서
- 위키데이터 속성 P3562를 사용하는 문서
- 위키데이터 속성 P3563을 사용하는 문서
- 위키데이터 속성 P3601을 사용하는 문서
- 위키데이터 속성 P3723을 사용하는 문서
- 위키데이터 속성 P3788을 사용하는 문서
- 위키데이터 속성 P3829를 사용하는 문서
- 위키데이터 속성 P3863을 사용하는 문서
- 위키데이터 속성 P3920을 사용하는 문서
- 위키데이터 속성 P3993을 사용하는 문서
- 위키데이터 속성 P4038을 사용하는 문서
- 위키데이터 속성 P4055를 사용하는 문서
- 위키데이터 속성 P4114를 사용하는 문서
- 위키데이터 속성 P4143을 사용하는 문서
- 위키데이터 속성 P4186을 사용하는 문서
- 위키데이터 속성 P4423을 사용하는 문서
- 위키데이터 속성 P4457을 사용하는 문서
- 위키데이터 속성 P4534를 사용하는 문서
- 위키데이터 속성 P4535를 사용하는 문서
- 위키데이터 속성 P4581을 사용하는 문서
- 위키데이터 속성 P4613을 사용하는 문서
- 위키데이터 속성 P4955를 사용하는 문서
- 위키데이터 속성 P5034를 사용하는 문서
- 위키데이터 속성 P5226을 사용하는 문서
- 위키데이터 속성 P5288을 사용하는 문서
- 위키데이터 속성 P5302를 사용하는 문서
- 위키데이터 속성 P5321을 사용하는 문서
- 위키데이터 속성 P5368을 사용하는 문서
- 위키데이터 속성 P5504를 사용하는 문서
- 위키데이터 속성 P5587을 사용하는 문서
- 위키데이터 속성 P5736을 사용하는 문서
- 위키데이터 속성 P5818을 사용하는 문서
- 위키데이터 속성 P6213을 사용하는 문서
- 위키데이터 속성 P6734를 사용하는 문서
- 위키데이터 속성 P6792를 사용하는 문서
- 위키데이터 속성 P6804를 사용하는 문서
- 위키데이터 속성 P6829를 사용하는 문서
- 위키데이터 속성 P7293을 사용하는 문서
- 위키데이터 속성 P7303을 사용하는 문서
- 위키데이터 속성 P7314를 사용하는 문서
- 위키데이터 속성 P7902를 사용하는 문서
- 위키데이터 속성 P8034를 사용하는 문서
- 위키데이터 속성 P8189를 사용하는 문서
- 위키데이터 속성 P8381을 사용하는 문서
- 위키데이터 속성 P8671을 사용하는 문서
- 위키데이터 속성 P8980을 사용하는 문서
- 위키데이터 속성 P9070을 사용하는 문서
- 위키데이터 속성 P9692를 사용하는 문서
- 위키데이터 속성 P9725를 사용하는 문서
- 위키데이터 속성 P9984를 사용하는 문서
- 위키데이터 속성 P10020을 사용하는 문서
- 위키데이터 속성 P10299를 사용하는 문서
- 위키데이터 속성 P10608을 사용하는 문서
- 위키데이터 속성 P10832를 사용하는 문서
- 위키데이터 속성 P11249를 사용하는 문서
- 위키데이터 속성 P11646을 사용하는 문서
- 위키데이터 속성 P11729를 사용하는 문서
- 위키데이터 속성 P12204를 사용하는 문서
- 위키데이터 속성 P12362를 사용하는 문서
- 위키데이터 속성 P12754를 사용하는 문서
- 위키데이터 속성 P13049를 사용하는 문서
- 전산언어학
- 음성 인식
- 자연어 처리