콘텐츠로 이동

수집 소스 명세

다음 (DAUM) 실시간 트렌드

항목 내용
소스 식별자 DAUM
수집 URL https://m.daum.net/ (모바일 버전)
수집 방식 HTTP GET → HTML 파싱 (SSR)
CSS 선택자 a[href*="DA=RT1"]
데이터 수 Top 10 키워드
갱신 주기 매 정시 (사이트 기준)
수집 주기 60분
제약사항 새벽 01:00~06:00 데이터 제한적 제공 (베타 서비스)
User-Agent iOS Safari (모바일 UA 필수)

수집 필드

필드 타입 설명 예시
rank int 순위 (1~10) 1
keyword string 트렌드 키워드 "김부자 가수"
status string (nullable) 변동 상태 "신규", "상승", "하락"

파싱 로직

  1. 모바일 다음 메인(m.daum.net) HTML을 요청
  2. a[href*="DA=RT1"] 선택자로 트렌드 링크를 추출
  3. 링크 텍스트에서 순위 번호 제거, 상태(신규/상승/하락) 분리
  4. 중복 키워드 제거 (모바일 페이지에 동일 링크가 2번 노출됨)

원본 보존 (RustFS Bronze)

data/bronze/trend/source=daum/{yyyyMMdd}/{HHmmss}/raw.html
data/bronze/trend/source=daum/{yyyyMMdd}/{HHmmss}/parsed.json