총 30개
-
AI 기반 취업정보 매칭 서비스 창업 계획2025.12.091. 웹 크롤링 기술 웹 크롤링은 인터넷상의 웹 페이지를 자동으로 탐색하고 정보를 수집하는 프로세스입니다. URL을 설정한 후 HTML 코드를 분석하여 웹페이지의 구조와 요소를 파악하고, 필요한 정보(텍스트, 링크, 표 등)를 추출하여 원하는 형식으로 저장하거나 처리합니다. 파이썬 같은 프로그래밍 언어로 구축이 가능하며, 키워드 설정만으로 해당 정보를 자동 수집할 수 있어 효율적입니다. 2. AI 기반 채용정보 서비스 'JobAlert' 'JobAlert'는 취업준비생을 위한 맞춤형 채용공고 수집 및 전송 서비스입니다. 사용자가 관...2025.12.09
-
계절학기 수강신청 추천 프로그램 개발2025.11.171. 데이터 전처리 및 크롤링 BeautifulSoup과 Pandas 라이브러리를 활용하여 웹페이지에서 계절학기 교과목, 학사일정, 공지사항 데이터를 수집하고 정제했습니다. urllib를 이용한 정적 웹페이지 크롤링, HTML 파싱을 통해 필요한 정보를 추출하고, 결측값 처리 및 데이터 가공을 수행했습니다. CSV 형식의 교과목 데이터와 HTML 형식의 학사일정 데이터를 통합하여 분석 가능한 형태로 변환했습니다. 2. 프로그램 알고리즘 및 함수 설계 학생 정보 입력을 통해 전공/일선/교양 구분을 수행하고, 관심 분야 입력에 따라 과...2025.11.17
-
자연어 처리를 통한 학술논문 처리 방법2025.11.161. 자연어처리(NLP) 자연어처리는 일상생활에서 사용되는 자연어를 기계가 이해할 수 있도록 처리하는 것으로, 컴퓨터가 자연어를 이해하고 출력하도록 하는 처리 과정을 의미한다. 본 연구에서는 Python의 KoNLPy 라이브러리를 활용하여 한글 형태소 분석을 수행했으며, 꼬꼬마, 한나눔, 코모란, Okt 등 다양한 형태소 분석기를 비교 검토하여 한나눔 형태소 분석기의 정확성이 가장 높다고 판단했다. 2. 웹 크롤링 및 텍스트 추출 Google Colab 환경에서 BeautifulSoup 라이브러리를 이용하여 KCI 등재 논문 사이트...2025.11.16
-
파이썬을 이용한 불법 사이트 탐지 및 차단2025.04.281. 불법 사이트 탐지 이 프로젝트는 파이썬을 사용하여 불법 사이트를 탐지하고 차단하는 기능을 제공합니다. 주요 기능으로는 구글 검색을 통해 불법 사이트 URL을 추출하고, 이를 hosts 파일에 차단하는 것입니다. 또한 머신러닝 기술을 활용하여 URL의 악성 여부를 판단하고, meta 태그의 키워드 필터링을 통해 유해 사이트를 탐지하는 기능을 포함하고 있습니다. 2. 구글 검색 및 URL 추출 이 프로젝트는 구글 검색을 통해 불법 사이트 URL을 추출하는 기능을 제공합니다. 특정 키워드로 구글 검색을 수행하고, 검색 결과에서 불법...2025.04.28
-
특허 분석 자동화 프로그램 개발2025.12.151. 특허 분석 자동화 시스템 특허 분석은 기업의 혁신과 경쟁력 강화에 필수적이나, 매년 수백만 건의 특허 출원으로 인한 대량 데이터 처리의 어려움, 검색 효율성 문제, 분석의 주관성, 높은 시간과 비용 부담이 발생한다. 이를 해결하기 위해 Python 기반의 자동화 프로그램을 설계하여 키워드 기반 기술 동향 및 업체 조사를 수행하고, Google Sheets API와 KIPRIS API를 연동하여 데이터를 자동으로 수집, 정리, 동기화하는 통합 감시 체계를 구축한다. 2. 프로그래밍 기반 데이터 처리 Python 3.8 이상을 사...2025.12.15
-
검색엔진을 위한 웹 크롤러 기술2025.12.091. 정보검색(Information Retrieval) 정보검색은 수집된 정보 자료를 분석, 조직, 표현하여 축적하고 이용자가 원하는 정보로의 접근을 제공하는 모든 과정을 포함한다. 색인작성과 검색으로 구분되며, 인적요소(최종이용자, 생산자, 색인자, 전문 정보검색자)와 물적요소(축적된 정보, 정보검색시스템)로 구성된다. 데이터 검색과 달리 구조화되거나 구조화되지 않은 자연어 텍스트를 포괄하여 관련된 적합한 정보를 얻는 것을 목적으로 한다. 2. 병렬 웹 크롤러(Parallel Web Crawler) 웹의 폭발적 증가에 따라 대용량...2025.12.09
-
R 언어를 이용한 데이터 크롤링 및 가공2025.04.261. R 언어 R 언어는 통계 및 데이터 분석을 위한 강력한 프로그래밍 언어입니다. R 언어를 이용하여 데이터 크롤링, 전처리, 시각화 등 다양한 작업을 수행할 수 있습니다. R 스튜디오는 R 언어를 사용하기 위한 대표적인 IDE로, 기본적인 통계 및 시각화 기능을 제공하며 다양한 패키지를 통해 복잡한 데이터 분석도 가능합니다. 2. 데이터 크롤링 데이터 크롤링은 웹 상의 데이터를 자동으로 수집하는 기술입니다. R 언어의 twitteR 패키지를 이용하면 트위터 데이터를 크롤링할 수 있습니다. 이를 통해 트위터 데이터를 수집하고 전처...2025.04.26
-
공공도서관의 웹페이지 수집 방안과 디지털 아카이빙2025.12.201. 웹 아카이빙(Web Archiving) 웹 아카이빙은 웹사이트의 콘텐츠를 체계적으로 수집하여 장기적으로 보존하고, 이용자가 특정 시점의 웹 환경과 정보를 그대로 다시 볼 수 있게 하는 활동입니다. 단순한 스크린샷이나 링크 저장과 달리 웹페이지의 구조, 링크, 멀티미디어 요소 등을 포함하여 전체를 저장합니다. 국립중앙도서관의 OASIS 시스템과 Internet Archive의 Wayback Machine이 대표적 사례입니다. 이를 통해 당시의 디지털 환경을 재현하고 사회적 맥락을 함께 보존할 수 있습니다. 2. 공공도서관의 웹페...2025.12.20
-
베이즈 정리를 활용한 구글 검색엔진 알고리즘의 작동 원리2025.12.161. 베이즈 정리(Bayes' Theorem) 베이즈 정리는 조건부 확률을 기반으로 한 수학 공식으로, P(A|B) = P(B|A) × P(A) / P(B)로 표현된다. 여기서 P(A|B)는 B라는 단서가 있을 때 A가 일어날 확률(사후 확률)이며, P(B|A)는 A가 일어났을 때 B도 일어날 확률, P(A)는 A의 사전 확률, P(B)는 B의 전체 확률이다. 이 정리는 단서가 주어졌을 때 우리가 믿는 확률을 업데이트하는 방식으로, 현대 정보 시스템의 핵심 수학적 도구로 활용된다. 2. 구글 검색엔진의 작동 원리 구글 검색엔진은 크...2025.12.16
-
마이크로 모빌리티 서비스 제공 기업의 수요 예측 및 전략적 배치2025.01.171. 수요 예측 방법론 수요 예측을 위해 시계열 분석과 머신 러닝 알고리즘을 활용할 수 있다. 시계열 분석은 과거 패턴을 바탕으로 미래를 예측하는 방법이며, 머신 러닝은 복잡한 데이터에서 패턴을 학습하여 예측하는 방법이다. 각각의 장단점이 있으므로, 상황에 따라 적절한 방법을 선택해야 한다. 2. 필요한 데이터 유형 및 수집 방법 수요 예측을 위해 필요한 데이터에는 이용 기록 데이터, 고객 프로필 데이터, 외부 환경 데이터가 있다. 이용 기록 데이터는 서비스 애플리케이션에서, 고객 프로필 데이터는 데이터베이스에서, 외부 환경 데이터...2025.01.17
