마지막 수정:

robots.txt와 canonical을 점검하며 확인한 색인 기본 조건


Search Console에 사이트를 등록한 뒤에는 “구글이 실제로 이 페이지를 가져갈 수 있는가”를 확인해야 합니다.

Daejin Lab에서는 sitemap을 고친 뒤, 글 상세 페이지 기준으로 색인 기본 조건을 점검했습니다.

확인한 robots.txt

처음 확인 당시 robots.txt는 단순했습니다.

User-agent: *
Allow: /

Sitemap: https://daejin-lab-blog.pages.dev/sitemap-index.xml

이 설정은 모든 검색엔진에게 사이트 접근을 허용하고, sitemap 위치를 알려줍니다.

30개 글까지 채운 뒤에는 Search Console이 직접 제출한 /sitemap.xml과 Astro가 만든 /sitemap-index.xml을 모두 찾을 수 있도록 robots.txt를 더 명확하게 두었습니다.

User-agent: *
Allow: /

Sitemap: https://daejin-lab-blog.pages.dev/sitemap.xml
Sitemap: https://daejin-lab-blog.pages.dev/sitemap-index.xml

둘 중 하나만 있어도 보통은 충분하지만, Search Console에서 가져오기 상태가 늦게 바뀌는 동안에는 표준 XML sitemap을 직접 안내하는 편이 확인하기 쉬웠습니다.

canonical 확인

글 상세 페이지의 canonical은 현재 공개 URL을 가리켜야 합니다.

예를 들어 아래 글은:

https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/

canonical도 같은 주소를 가리키는지 확인했습니다.

https://daejin-lab-blog.pages.dev/blog/ai-agent-good-bad-tasks/

이 값이 예전 도메인 후보나 다른 주소를 가리키면 검색엔진이 혼동할 수 있습니다.

noindex와 x-robots-tag

페이지 안에 noindex가 있으면 검색엔진이 색인하지 않을 수 있습니다. 서버 응답 헤더의 x-robots-tag도 마찬가지입니다.

점검 기준은 아래와 같습니다.

HTML 안에 noindex 없음
응답 헤더에 x-robots-tag 없음
HTTP 상태 200
content-type: text/html

Daejin Lab의 샘플 글에서는 이 조건이 정상으로 확인됐습니다.

sitemap과 함께 봐야 한다

색인 가능성은 robots.txt 하나만 보고 판단하기 어렵습니다. 아래를 같이 봐야 합니다.

robots.txt
sitemap-index.xml
sitemap-0.xml
canonical URL
noindex 여부
HTTP 상태 코드

처음 점검에서는 sitemap URL 27개가 정상적으로 확인됐고, 예전 daejinlab.com 주소도 남아 있지 않았습니다. 이후 글을 30개까지 늘린 뒤에는 sitemap URL이 42개로 늘었고, sitemap 안의 42개 URL이 모두 200으로 확인됐습니다.

sitemap.xml: 42개 URL
sitemap-0.xml: 42개 URL
각 URL 상태: 모두 200 OK
예전 도메인 문자열: 없음

2026-05-08 추가 확인

Search Console에는 여전히 가져올 수 없음이 보였지만, 사이트 쪽 확인 결과는 정상에 가까웠습니다.

/robots.txt: 200 OK
/sitemap.xml: 200 OK, application/xml, URL 47개
/sitemap-index.xml: 200 OK, sitemap 1개 포함
홈: 200 OK, noindex 없음, JSON-LD 있음

그래서 이 시점의 판단은 “sitemap 파일을 더 고친다”가 아니라 “Search Console 처리를 기다린다”입니다. 색인 문제를 볼 때는 콘솔 화면 하나보다 공개 URL, 응답 헤더, XML 파싱, robots, canonical을 같이 보는 편이 안전합니다.

기술 점검 후 멈춘 지점

이번 점검에서 중요한 기준은 “정상 확인 후에는 멈춘다”였습니다. robots, sitemap, canonical, noindex를 모두 확인했는데도 Search Console 화면만 늦게 바뀐다면, 같은 파일을 계속 수정하는 것은 도움이 되지 않을 수 있습니다.

그래서 다음 변경은 색인 관련 파일이 아니라 콘텐츠 쪽으로 돌렸습니다. 대표 글에 실제 운영 기록을 추가하고, Daejin Lab 운영 원칙을 먼저 정했습니다AdSense를 고려한 필수 페이지 구성처럼 신뢰 페이지와 연결되는 글을 먼저 보강했습니다.

지금 남긴 색인 기준

정적 블로그에서 색인 문제가 생기면 글 내용보다 기술 설정을 먼저 확인해야 할 때가 있습니다.

Daejin Lab에서는 robots.txt, sitemap, canonical, noindex, 응답 헤더를 확인해 기본 색인 조건을 점검했습니다. Search Console 화면의 상태가 늦게 바뀌더라도, 사이트 쪽 기본 조건은 먼저 정상으로 맞춰두는 것이 중요합니다. 그리고 정상 확인 뒤에는 24~72시간 정도 파일을 동결하고, 콘텐츠 보강으로 넘어가는 편이 안전하다고 봅니다.