DIAMOND
DIAMOND 등급의 판매자 자료

[파이썬데이터처리-방송통신대-26-1학기-중간과제물] 뉴스 데이터 수집 및 전처리 공공 API를 활용한 데이터 수집 및 분석 등

15 페이지
압축파일
최초등록일 2026.03.16 최종저작일 2026.03
15P 미리보기
[파이썬데이터처리-방송통신대-26-1학기-중간과제물] 뉴스 데이터 수집 및 전처리 공공 API를 활용한 데이터 수집 및 분석 등
  • 미리보기

    과제정보

    학과 통계·데이터과학과 학년 3학년
    과목명 파이썬데이터처리 자료 3건
    공통 문제 1. 뉴스 데이터 수집 및 전처리 (15점)
    문제 2. 공공 API를 활용한 데이터 수집 및 분석 (15점)

    소개

    과제물 내의 첨부파일은 총 5개로 구성되어있습니다.
    - 문제 01-02번 보고서
    - 문제 01번 : 파이썬 코드
    - 문제 02번 : 파이썬 코드
    - 문제 02번 : 테이블 csv파일
    - 문제 02번 : 그래프 이미지 파일

    [문제 01]
    과제 내용 : 네이버 또는 다음 뉴스에서 서로 다른 두 개의 키워드(예: 'PC' vs '콘솔' 등 서로 대비되는 두 개념)를 검색하여 기사를 수집하고 비교 분석하시오.
    요구사항 :
    데이터 수집 (7점) : BeautifulSoup을 사용하여 키워드별로 최소 30건 이상의 기사(제목, 언론사, 요약문)를 수집합니다.

    결측치 및 데이터 정제 (5점)
    ■ 결측치 탐지: 요약문이 없는 기사를 찾아내고, 이를 어떻게 처리했는지 설명하시오 (7강 '결측치의 탐지' 내용 활용).
    ■ 텍스트 정제 : 제목에서 특수문자나 불필요한 공백을 제거하는 전처리 코드를 작성하시오.

    비교 분석 (3점) : 두 키워드 간의 언론사 분포 차이나 제목에 등장하는 주요 단어의 차이를 간단한 표나 그래프로 비교하시오.

    [문제 02] 공공 API를 활용한 데이터 수집 및 분석 (15점)
    과제 내용 : data.go.kr(공공데이터포털)에서 제공하는 API를 활용하여 유용한 데이터를 수집하고 분석하시오.
    ① 요구사항 :
    ■ 과제 내용 : 공공데이터포털에서 본인의 거주지 또는 관심 지역의 '대기오염 정보' 또는 '기상 관측 데이터'를 API로 호출하여 분석용 데이터셋을 생성하시오.

    ② 요구사항 :
    ■ Extract (7점): requests 라이브러리를 사용하여 JSON 형식의 데이터를 호출하고, 판다스 데이터프레임으로 변환하는 과정을 상세히 기술하시오. (06강 API 호출 과정 참고)
    ■ Transform (5점): 타입 변환: 문자열로 들어온 수치 데이터(예: 미세먼지 농도, 기온)를 산술 연산이 가능한 float 또는 int 형으로 변환하시오.
    ■ 파생 변수 생성: 기준 시간 데이터를 활용하여 '오전/오후' 또는 '주말/평일' 구분 컬럼을 추가하시오.
    ■ Load & Insight (3점): 정제된 데이터를 csv 파일로 저장하시오.
    ■ 시간대별 또는 지역별 데이터의 변동 추이를 간단한 꺾은선 그래프(Line Plot)로 시각화하고 1~2가지 특징을 서술하시오.

    목차

    [문제 01] Code.py
    [문제 02] Code.py
    [문제 02] 서울특별시 서초구 대기질-표.csv
    [문제 02] 서울틀벽시 서초구 대기질-그래프.png
    파이썬데이터처리_문제 1. 뉴스 데이터 수집 및 전처리.hwp

    본문내용

    [문제 01]
    과제 내용: 네이버 또는 다음 뉴스에서 서로 다른 두 개의 키워드(예: 'PC' vs '콘솔' 등 서로 대비되는 두 개념)를 검색하여 기사를 수집하고 비교 분석하시오.
    요구사항 :
    ① 데이터 수집 (7점) : BeautifulSoup을 사용하여 키워드별로 최소 30건 이상의 기사(제목, 언론사, 요약문)를 수집합니다.
    ② 결측치 및 데이터 정제 (5점)
    ■ 결측치 탐지: 요약문이 없는 기사를 찾아내고, 이를 어떻게 처리했는지 설명하시오 (7강 '결측치의 탐지' 내용 활용).
    ■ 텍스트 정제 : 제목에서 특수문자나 불필요한 공백을 제거하는 전처리 코드를 작성하시오
    ③ 비교 분석 (3점) : 두 키워드 간의 언론사 분포 차이나 제목에 등장하는 주요 단어의 차이를 간단한 표나 그래프로 비교하시오.

    1. 데이터 수집 방법
    데이터 수집은 파이썬의 requests 라이브러리와 BeautifulSoup 라이브러리를 활용하여 수행하였다. 다음 뉴스 검색 페이지의 HTML 구조를 분석하여 뉴스 기사 목록에서 필요한 정보를 추출하였다.

    검색 URL에 페이지 번호 파라미터를 적용하여 각 키워드에 대해 총 10페이지의 뉴스 데이터를 반복적으로 수집하였다.

    수집 항목은 뉴스 기사 제목, 언론사, 기사 요약문이며, 각 페이지에서 추출된 데이터를 리스트 형태로 저장한 후, 이를 Pandas 데이터프레임으로 변환하여 분석에 활용하였다.

    2. 데이터 전처리
    수집된 뉴스 데이터에는 일부 결측값이나 불필요한 특수문자가 포함되어 있을 수 있다. 따라서 데이터 분석의 정확성을 높이기 위해 다음과 같은 전처리 과정을 수행하였다.

    참고자료

    · 한종대, 민경하(2025). 파이썬데이터처리. KNOU PRESS.
  • 압축파일 내 파일목록

    · [문제 02] 서울특별시 서초구 대기질-표.csv
    · [문제 02] Code.py
    · [문제 01] Code.py
    · [문제 02] 서울틀벽시 서초구 대기질-그래프.png
    · 파이썬데이터처리_문제 1. 뉴스 데이터 수집 및 전처리.hwp
  • 자료후기

      Ai 리뷰
      지식판매자의 자료를 통해 새로운 인사이트를 얻을 수 있었습니다. 주제가 흥미롭고, 내용이 충실해 많은 도움이 되었습니다. 추천할 만한 자료입니다! 감사합니다!
    • 자주묻는질문의 답변을 확인해 주세요

      해피캠퍼스 FAQ 더보기

      꼭 알아주세요

      • 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
        자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
        저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
      • 해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.
        파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
        파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

    함께 구매한 자료도 확인해 보세요!

    “통계·데이터과학과” 연관 자료 입니다

    문서 초안을 생성해주는 EasyAI
    안녕하세요 해피캠퍼스의 20년의 운영 노하우를 이용하여 당신만의 초안을 만들어주는 EasyAI 입니다.
    저는 아래와 같이 작업을 도와드립니다.
    - 주제만 입력하면 AI가 방대한 정보를 재가공하여, 최적의 목차와 내용을 자동으로 만들어 드립니다.
    - 장문의 콘텐츠를 쉽고 빠르게 작성해 드립니다.
    - 스토어에서 무료 이용권를 계정별로 1회 발급 받을 수 있습니다. 지금 바로 체험해 보세요!
    이런 주제들을 입력해 보세요.
    - 유아에게 적합한 문학작품의 기준과 특성
    - 한국인의 가치관 중에서 정신적 가치관을 이루는 것들을 문화적 문법으로 정리하고, 현대한국사회에서 일어나는 사건과 사고를 비교하여 자신의 의견으로 기술하세요
    - 작별인사 독후감
    해캠 AI 챗봇과 대화하기
    챗봇으로 간편하게 상담해보세요.
    2026년 06월 03일 수요일
    AI 챗봇
    안녕하세요. 해피캠퍼스 AI 챗봇입니다. 무엇이 궁금하신가요?
    3:29 오후