# 지식 베이스 - 웹 크롤러

향상된 웹 크롤러는 Hyperclass의 대화 AI(Conversation AI)에 새로운 힘을 제공하여, 정적 페이지만큼이나 쉽게 인터랙티브 웹사이트에서 학습할 수 있게 합니다. 탭, 아코디언, 지연 로딩 섹션을 포함하여 최대 50%나 더 많은 페이지 내 콘텐츠를 자동으로 수집함으로써, 봇이 더 정확하게 더 많은 질문에 답변할 수 있습니다.

**목차**

* [향상된 웹 크롤러란 무엇인가요?](#향상된-웹-크롤러란-무엇인가요)
* [향상된 웹 크롤러의 주요 장점](#향상된-웹-크롤러의-주요-장점)
* [지능형 동적 콘텐츠 추출](#지능형-동적-콘텐츠-추출)
* [고급 링크 발견](#고급-링크-발견)
* [범용 웹사이트 지원](#범용-웹사이트-지원)
* [향상된 웹 크롤러 사용법](#향상된-웹-크롤러-사용법)
* [자주 묻는 질문](#자주-묻는-질문)

## **향상된 웹 크롤러란 무엇인가요?**

향상된 웹 크롤러는 봇 훈련(Bot Training) 내부의 업그레이드된 웹사이트 수집 엔진입니다. 실제 방문자의 상호작용을 모방하여 아코디언을 열고, 탭을 클릭하고, 스크롤하고, 동적으로 로드되는 데이터를 드러내어 웹사이트에 숨겨진 모든 정보를 추출합니다. 이렇게 풍부해진 지식은 기존의 정확한 URL, 도메인, 경로 크롤링 옵션과 함께 봇의 훈련 세트에 추가됩니다.

## 향상된 웹 크롤러의 주요 장점

* **더 깊은 텍스트 캡처:** 현대 SPA(React, Vue, Angular, Gutenberg 등)에서 30-50% 더 많은 페이지 내 콘텐츠를 추출합니다.
* **숨겨진 콘텐츠 인식:** 아코디언, 탭, 모달, 지연 로드 및 무한 스크롤 섹션을 읽습니다.
* **빠른 멀티 전략 파싱:** 속도를 위해 12개 이상의 콘텐츠 감지 전략을 병렬로 실행합니다.
* **안전한 상호작용 엔진:** 폼, 필터 변경, 장바구니 액션과 같은 위험한 클릭을 피합니다.
* **병렬화된 추출:** 크고 복잡한 사이트에서 전체 크롤링 시간을 단축합니다.
* **실행 가능한 크롤링 메트릭:** 시간, 상호작용, 콘텐츠 길이, 메모리를 추적하여 문제 해결과 최적화를 돕습니다.

## **지능형 동적 콘텐츠 추출**

* 자동으로 아코디언을 확장하고, 탭을 클릭하고, 지연 로딩을 트리거하여 숨겨진 콘텐츠를 드러냅니다
* 매우 빠른 추출을 위해 병렬로 실행되는 2개 이상의 스마트 감지 전략(의미적 콘텐츠, 구조화된 데이터, 메타데이터)
* 폼 제출이나 필터 변경과 같은 방해적인 액션을 피하는 안전한 상호작용 엔진

## **고급 링크 발견**

* **재귀적 사이트맵 크롤링:** 다단계 사이트 구조에서 URL 발견을 개선하기 위해 중첩된 사이트맵을 재귀적으로 발견하고 처리합니다.
* **압축된 사이트맵 지원:** 압축된 사이트맵 파일(예: `.xml.gz` 및 `.gzip`)을 지원하여 대역폭 사용량을 줄이고 크롤링 효율성을 개선합니다.
* **내비게이션 가드:** 내비게이션 경계를 감지하여 크롤러 drift를 줄이고 의도된 지식 베이스 범위 내에서 발견을 유지합니다.
* **다중 소스 감지:** HTML 파싱 + JavaScript 평가 + 상호작용 기반 발견
* 확장 가능한 섹션과 동적 콘텐츠 뒤에 숨겨진 링크를 발견합니다
* 설명적인 링크 텍스트를 보존하면서 지능적인 중복 제거를 수행합니다

## **범용 웹사이트 지원**

* 모든 웹사이트 유형과 호환됩니다: 정적 HTML, 워드프레스, React SPA, Vue 앱, Angular 애플리케이션
* 병렬 콘텐츠 추출을 통한 더 빠른 크롤링
* 상세한 메트릭(처리 시간, 상호작용, 콘텐츠 길이, 메모리 사용량)을 통한 완전한 관찰 가능성

## 향상된 웹 크롤러 사용법

### **1단계:** 지식 베이스로 이동

* 하위 계정에서 \*\*AI 직원(AI Agents)\*\*을 클릭하세요.
* **지식 베이스(Knowledge Base)** 탭을 클릭하세요.
* 새로운 지식 베이스를 \*\*생성(Create)\*\*하거나 기존 베이스를 \*\*편집(Edit)\*\*하세요.
* **+ 소스 추가(+ Add Source)** 버튼을 클릭하세요.
* \*\*웹 크롤러(Web Crawler)\*\*를 클릭하세요.

![향상된 웹 크롤러 설정 화면](https://jumpshare.com/share/O4Vtc06bfshFLpvHkl0W+/GIF+Recording+2025-10-10+at+7.39.28+PM.gif)

### 2단계: 도메인 유형 선택 및 도메인 입력

* 봇을 훈련할 때 크롤링할 수 있는 여러 도메인 유형이 있습니다. 선택하는 도메인 유형에 따라 봇을 훈련하기 위해 크롤링할 URL의 수가 결정됩니다.

**정확한 URL(Exact URL):** 특정 웹페이지를 크롤링하여 해당 데이터를 훈련에 사용합니다. 예를 들어, <https://www.gohighlevel.com/을> 입력하면 해당 정확한 웹페이지로만 크롤링을 제한합니다.

* **경로가 포함된 모든 URL(All URLs with the Path):** 특정 경로 내의 모든 페이지를 크롤링합니다. 예를 들어, <https://www.gohighlevel.com/marketing을> 입력하면 /marketing/offers나 /marketing/promotions와 같은 해당 URL 경로를 사용하는 모든 페이지를 포함합니다.
* **이 도메인의 모든 URL(All URLs in this Domain):** 도메인 내의 모든 페이지를 크롤링합니다. 예를 들어, <https://www.gohighlevel.com/promo를> 입력하면 루트 도메인 [www.gohighlevel.com의](http://www.gohighlevel.com의) 모든 페이지를 포함합니다.
* **URL**을 추가하세요.
* **데이터 추출(Extract Data)** 버튼을 클릭하세요.

![도메인 설정 화면](https://jumpshare.com/share/Nzx9IAkaXBtJYyDXQCD9+/GIF+Recording+2025-10-10+at+7.52.11+PM.gif)

### 3단계: 크롤링된 URL 선택

* URL 크롤링이 완료되면 **모든 페이지 보기(View All Pages)** 옵션을 클릭하세요.
* "모두 선택"하거나, 훈련 데이터에 추가하고 싶은 URL 옆의 체크박스를 클릭하여 개별 URL을 선택할 수 있습니다.
* 선택 후 **봇 훈련(Train Bot)** 버튼을 클릭하세요.

![URL 선택 화면](https://jumpshare.com/share/l8eRZzthdUDzQM4ubX8A+/GIF+Recording+2025-10-10+at+8.55.08+PM.gif)

## **자주 묻는 질문**

**Q: "더 스마트한 콘텐츠 발견"이란 무엇을 의미하나요?** 크롤러는 이제 이전에 자주 놓쳤던 고객 추천, 기능, 연락처 정보, 서비스 설명을 포함하여 최대 5.2배 더 많은 웹사이트 콘텐츠를 캡처합니다.

**Q: 새 크롤러로 훈련하는 것이 얼마나 안정적인가요?** 비즈니스, 이커머스, 현대 인터랙티브 사이트 유형 전반에서 성공률이 81.6%에서 94.7%로 향상되어 수집 실패가 훨씬 적게 발생합니다.

**Q: 주요 섹션을 추출하기 위해 별도로 설정해야 하나요?** 아니요. 6개 이상의 병렬 감지 전략이 히어로 섹션, 고객 추천, 제품 설명, 팀 소개, 가격표, 연락처 정보를 자동으로 찾아냅니다.

**Q: 인터랙티브하거나 숨겨진 콘텐츠를 읽을 수 있나요?** 네. 아코디언을 확장하고, 탭을 탐색하며, 지연 로드/숨겨진 섹션을 드러내어 완전한 고객 추천과 상세한 서비스 정보를 캡처합니다.

**Q: 어떤 구조화된 데이터를 가져오며, 왜 중요한가요?** 94% 더 많은 구조화된 데이터(영업시간, 연락처 정보, 가격, 서비스)를 추출하여 AI가 귀하의 비즈니스에 대해 더 풍부하고 정확한 이해를 갖게 합니다.

**Q: 결제 버튼을 클릭하거나 폼을 제출하나요?** 아니요. 안전한 상호작용 엔진은 폼 요소를 무시하여 실수로 제출되는 일이 없도록 보장합니다.

**Q: 크롤러가 로그인 뒤에 숨겨진 섹션에 접근할 수 없으면 어떻게 되나요?** 상호작용 엔진은 공개적으로 접근 가능한 콘텐츠에서만 작동합니다. 개인적이거나 로그인이 필요한 데이터는 크롤링되지 않습니다.

***

*원문 최종 수정: 2026년 3월 26일* *Hyperclass 사용 가이드 — hyperclass.ai*


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://hyperclass.gitbook.io/hyperclass-docs/ai-ai-employee/knowledge-base-web-crawler.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
