[말뭉치]말뭉치 처리 방법
- 최초 등록일
- 2005.10.13
- 최종 저작일
- 2005.01
- 3페이지/ 한컴오피스
- 가격 1,000원
소개글
^^
목차
1. 한국어를 반영한 자료의 구축 방법
① 원시 말뭉치 방법(raw corpus)
② 분석 말뭉치방법
③균형 말뭉치방법
④번역 말뭉치방법
⑤ 문자 말뭉치방법
⑥ 이미지 자료방법
2. 한국어를 연구한 전자 자료 방법
본문내용
① 원시 말뭉치 방법(raw corpus)
원시 말뭉치는 기본적인 전자 자료이다. 이것은 이 자료에 대한 출전, 저자, 용량 등의 기본 정보를 나타내는 헤더(header)와 본문(text)으로 구성되어 있다.
1) 헤더
자료의 공유를 위해서는 헤더를 붙이는 양식이 표준화되어 있어야 하는데, 현재 문화관광부에서 시행하고 있는 `국어 정보화 중장기 발전 계획`인 `21세기 세종계획`에서 마련한 헤더의 표준 양식이 있다.
그런데 이 표준 양식 중에서 서지 사항을 표시하는 항목의 기술 내용이 정밀하지 않아서, 특히 이본이 많은 역사 자료는 그 서지 정보의 기술이 불완전한 편이다. 이 점만 보완한다면 21세기 세종계획에서 마련한 헤더의 표준양식은 거의 완벽하다고 할 수 있다. 그래서 옛 문헌에 대한 서지 정보는 별도로 마련하는 것이 좋을 듯하다.
2) 옛 문헌의 서지 정보
옛 문헌에 대한 서지 정보의 기술은 현대 문헌과는 다르다.
옛 문헌의 서지 정보를 헤더 속에 포함시키는 일은 번거로운 일이다. 따라서 이러한 서지 정보는 텍스트 자료로서 입력된 파일 속에 포함시키는 것보다는 오히려 이미지로 만들어 놓은 파일의 앞에 넣어 그 자료의 성격을 파악하도록 하는 것이 좋을 것이다.
3) 본문 입력 양식
본문의 입력 양식은 전자 자료의 양식에서 신중하게 고려해야 할 부분이다. 컴퓨터로 이 자료들을 검색하여 활용하는 부분이기 때문이다.
본문의 입력 방식은 크게 두 가지로 구분된다. 하나는 원문의 구조와 형식까지도 그대로 입력하는 것이고, 또 하나는 원문의 표기나 방점 등은 그대로 반영하되 형식은 가공하여 처리하는 것이다. 원문의 형식에 충실하게 입력한다면, 옛 문헌 자료의 입력 파일은 띄어쓰기가 되어 있어서는 안 된다. 왜냐 하면 옛 문헌에는 대부분이 띄어쓰기가 되어 있지 않기 때문이다. 그리고 행의 바꿈도 원문에 그대로 따라야 한다. 그러나 이러한 입력 방식은 거의 무의미하다. 왜냐하면 이것은 이미지로 처리한 자료와 다르지 않기 때문이다. 그래서 가공 처리하지 않으면 안 된다.
참고 자료
없음