인문데이터의이해 시험 정리
- 최초 등록일
- 2020.06.08
- 최종 저작일
- 2018.12
- 8페이지/ 어도비 PDF
- 가격 3,000원
* 본 문서는 PDF문서형식으로 복사 및 편집이 불가합니다.
소개글
2018년 2학기 인문데이터의이해 강의 (명지대) 기말고사 정리 내용 입니다.
정리가 깔끔하진 않지만 시험 자료로 간단히 보기에 좋을 것 같아 업로드합니다.
*교수님이 이야기 해주신 부분 위주로 정리했고, 중요 부분에는 형광펜 처리가 되어 있습니다.
목차
1. 문화데이터
2. 문화예술
3. UCI
4. 공공누리
5. CCL
6. 언어데이터
7. 말뭉치
8. 말뭉치의 주요용도
본문내용
* 문화데이터: 다양한 문화 분야의 공공데이터
- 문화예술, 문화유산, 문화산업, 관광, 체육, 도서
- 약 7400만건 메타데이터 연계
- 문화데이터광장에서는 메타데이터만 보유하고 사이트로 연결
- 문화데이터광장, 공공누리
* 문화예술: 한국예술디지털아카이브
- 공연예술(연극), 시각예술(회화), 구술사(생애사, 주제사)
* UCI: universal contents identifier 국가디지털콘텐츠식별체계
- 무엇을 이용하나에 대한 대안
- 콘텐츠마다 부여되는 고유번호(기호)
- 각 콘텐츠에 유일/영구 코드 부여: 소설, 음악 음반, 사진, 영화. DB, 방송, 미술, 소프트웨어
- 학위논문에 부여된 UCI: RISS, KCI(한국학술지인용색인)
* 공공누리: 공공저작물 자유이용 허락 표시제도
- 공공저작물 정보 통합 제공 서비스, 저작권 침해의 부담없이 무료로 자유롭게 이용
- 어떻게 이용하나에 대한 대안
- 출처표시의무, 상업적이용허용여부, 변경허용 여부따라 4단계로 구분
*
CCL: creative commons 라이선스
BY 저작자표시
ND 변경금지
SA 동일조건변동허락
NC 비영리* 언어데이터
- 사전: 어휘사전, 전문용어사전, 데이터베이스, 시소러스(유의어, 연관어사전)
- 말뭉치(corpus): 언어 표본을 모은 집합 (누군가)(누구/무엇) 알아보기 위해 말, 글 모은 것
- 말뭉치 구축: AI용 한국어 말뭉치 155억어절, 실제 2억여절(턱 없이 부족)
* 말뭉치
- 가공방법 따라
원시말뭉치: 원래 텍스트 그대로 입력
분석말뭉치: 정보 나타내는 표식 추가해 가공
- 구성방법 따라
균형말뭉치: 장르, 분야 등 고르게 모아 종합적으로 추구
기회적말뭉치: 가능한 범위내에서 수집(일부러X, 어쩔수 없이, 그것밖에 없어서)
특수목적말뭉치: 특정 장르, 분야, 쓰임새만 고려(한국어 학습자 말뭉치)(일부러 범위 제한)
- 문자언어말뭉치/ 음성언어/ 몸짓
- 단일어/ 다언어 / 병렬(로제타 스톤)
- 공시/ 통시
- 로제타 스톤의 병렬 말뭉치: 고대 이집트에서 제작된 같은 내용 글이 이집트 상형문자, 민중문
자, 고대 그리스어 세가지 문자로 번역되어 쓰여 있는 화강암
참고 자료
없음