마지막 수정:

Search Console에서 sitemap 가져올 수 없음이 뜰 때 확인한 것


Google Search Console에 sitemap을 제출했는데 “가져올 수 없음”이 뜨면 당황스럽습니다.
Daejin Lab에서도 처음 sitemap을 제출했을 때 같은 상태가 나왔습니다.

이번 글은 그때 실제로 확인한 항목을 정리한 기록입니다.

처음 의심한 것

처음에는 sitemap 파일 자체가 없는 줄 알았습니다. 그래서 공개 주소에서 직접 열어봤습니다.

https://daejin-lab-blog.pages.dev/sitemap-index.xml

파일은 열렸지만, 안쪽에 들어 있는 주소가 문제였습니다. 초기 설정에 남아 있던 도메인 후보 때문에 sitemap이 아래 주소를 가리키고 있었습니다.

https://daejinlab.com/sitemap-0.xml

Search Console에 등록한 속성은 pages.dev 주소였기 때문에, 다른 도메인을 가리키는 sitemap을 제대로 가져오지 못한 것입니다.

수정한 파일

이 문제를 고치기 위해 URL 기준값을 현재 공개 주소로 맞췄습니다.

astro.config.mjs
src/consts.ts
public/robots.txt

수정 기준은 아래처럼 통일했습니다.

https://daejin-lab-blog.pages.dev

그 뒤 다시 빌드했습니다.

npm run build

확인한 항목

수정 후에는 아래를 확인했습니다.

robots.txt 상태: 200 OK
sitemap-index.xml 상태: 200 OK
sitemap-0.xml 상태: 200 OK
sitemap 안 URL 개수
예전 daejinlab.com 주소가 남아 있는지
신규 글 URL이 sitemap에 들어갔는지

최종적으로 sitemap에는 현재 공개 주소만 남았습니다.

https://daejin-lab-blog.pages.dev/...

그래도 바로 성공하지 않을 수 있다

사이트 쪽 문제가 해결되어도 Search Console 화면에서는 한동안 “가져올 수 없음”이 남아 있을 수 있습니다. 이 경우에는 구글 쪽 재처리 시간이 필요할 수 있습니다.

그래도 사이트 기준으로 아래가 정상이면 우선 큰 문제는 아니라고 봤습니다.

robots.txt에서 차단하지 않음
sitemap 파일이 200으로 열림
canonical이 현재 도메인을 가리킴
noindex가 없음
x-robots-tag가 없음

30개 글까지 늘린 뒤 다시 확인한 결과

글을 30개까지 채운 뒤 같은 항목을 다시 확인했습니다. 이때는 sitemap 제출 화면에는 아직 “가져올 수 없음”이 남아 있었지만, 공개 사이트 기준으로는 문제가 보이지 않았습니다.

/robots.txt: 200 OK
/sitemap.xml: 200 OK
/sitemap-index.xml: 200 OK
/sitemap-0.xml: 200 OK
/sitemap.txt: 200 OK
sitemap.xml URL 수: 42개(당시 기준)
sitemap 안 URL 42개(당시 기준): 모두 200 OK
Googlebot User-Agent 기준 접근: 정상

이 단계에서 판단한 것은 “사이트가 막힌 상태”와 “Search Console 화면 반영이 늦는 상태”를 구분해야 한다는 점입니다. 파일이 200으로 열리고, XML 파싱이 되고, 안쪽 URL도 모두 200이면 바로 코드를 또 바꾸기보다 잠시 기다리는 편이 낫습니다.

실제로 다시 확인할 때는 아래처럼 브라우저가 아닌 요청 기준으로 보는 것이 좋았습니다.

curl -I -A 'Googlebot/2.1 (+http://www.google.com/bot.html)' \
  https://daejin-lab-blog.pages.dev/sitemap.xml

이번에는 더 고치지 않기로 한 이유

Search Console 화면에는 여전히 가져올 수 없음이 보일 수 있습니다. 하지만 이 상태에서 파일을 계속 바꾸면 원인을 더 흐릴 수 있다고 봤습니다. 이번에는 아래 조건을 기준으로 멈췄습니다.

/sitemap.xml 공개 접근 가능
/sitemap-index.xml 공개 접근 가능
robots.txt에서 sitemap 주소 확인 가능
대표 글 URL이 200으로 열림
canonical과 noindex 상태에 문제 없음

이 조건이 맞으면 다음 단계는 sitemap 파일 수정이 아니라 URL 검사, 색인 요청, 콘텐츠 보강입니다. 같은 기준은 사이트맵이 정상인데 Search Console은 실패할 때 다음에 한 일에 이어서 정리했습니다. 기술 조건 자체는 robots.txt와 canonical을 점검하며 확인한 색인 기본 조건에서 함께 확인합니다.

지금 남긴 판단

Search Console의 sitemap 오류는 무조건 Google 문제라고 보기 전에, 먼저 sitemap 내부 URL을 확인해야 합니다.

Daejin Lab의 경우 원인은 sitemap 파일 부재가 아니라 현재 등록한 사이트 주소와 sitemap 내부 주소가 달랐던 것이었습니다. 정적 블로그에서는 도메인 변경 전후로 site 설정을 꼭 확인해야 합니다. 다만 공개 URL과 XML이 정상으로 돌아온 뒤에는, 상태가 바로 바뀌지 않아도 24~72시간 정도는 기다리는 편이 낫다고 판단했습니다.