Hotline : 0888 35 3335

seo-1-300x94-1-231x72-5

Hà Nội, Sài Gòn, Đà Nẵng

Blog

Cách hoạt động của Google Crawler: Hướng dẫn gói SEO cho người mới bắt đầu

Đầu tiên, Google thu thập dữ liệu web để tìm các trang mới. Sau đó, Google lập chỉ mục các trang này để hiểu nội dung của chúng và xếp hạng chúng theo dữ liệu được truy xuất. Tuy nhiên, thu thập thông tin và lập chỉ mục là hai quá trình khác nhau, chúng đều do trình thu thập thông tin thực hiện.

Trong hướng dẫn mới của chúng tôi, chúng tôi đã thu thập mọi thứ mà một chuyên gia SEO cần biết về trình thu thập thông tin. Đọc để biết trình thu thập thông tin của Google là gì, cách thức hoạt động và cách bạn có thể tương tác với trang web của mình thành công hơn.

Trình thu thập thông tin của Google là gì?

Trình thu thập thông tin của Google (cũng là công cụ tìm kiếm, trình thu thập thông tin) là một phần mềm mà Google và các công cụ tìm kiếm khác sử dụng để quét Web. Nói một cách đơn giản, nó “thu thập dữ liệu” từ trang này sang trang khác, tìm kiếm nội dung mới hoặc cập nhật mà Google chưa có trong cơ sở dữ liệu của mình.

Bất kỳ công cụ tìm kiếm nào cũng có bộ trình thu thập thông tin riêng. Đối với Google, có hơn 15 loại trình thu thập thông tin khác nhau và trình thu thập thông tin chính của Google được gọi là Googlebot . Googlebot thực hiện cả thu thập dữ liệu và lập chỉ mục, đó là lý do tại sao chúng ta sẽ xem xét kỹ hơn cách hoạt động của nó.

Trình thu thập thông tin của Google hoạt động như thế nào?

Google (thực tế là bất kỳ công cụ tìm kiếm nào) không có sổ đăng ký trung tâm của các URL, được cập nhật bất cứ khi nào một trang mới được tạo. Điều này có nghĩa là Google không tự động “cảnh báo” về các trang mới mà phải tìm chúng trên web. Googlebot liên tục lang thang trên Internet và tìm kiếm các trang mới, thêm chúng vào cơ sở dữ liệu của Google về các trang hiện có.

Khi Googlebot phát hiện ra một trang mới, nó sẽ hiển thị (hiển thị) trang đó trong trình duyệt, tải tất cả HTML, mã của bên thứ ba, JavaScript và CSS. Thông tin này được lưu trữ trong cơ sở dữ liệu của công cụ tìm kiếm và sau đó được sử dụng để lập chỉ mục và xếp hạng trang. Nếu một trang đã được lập chỉ mục, trang đó sẽ được thêm vào Chỉ mục của Google – một cơ sở dữ liệu siêu khổng lồ nữa của Google.

Trình thu thập thông tin của Google xem các trang như thế nào?

Trình thu thập thông tin của Google hiển thị một trang trong phiên bản mới nhất của trình duyệt Chromium . Trong trường hợp hoàn hảo, trình thu thập thông tin của Google “nhìn thấy” một trang theo cách bạn đã thiết kế và lắp ráp nó. Trong kịch bản thực tế, mọi thứ có thể phức tạp hơn.

Googlebot có thể “nhìn thấy” trang của bạn bằng hai loại trình thu thập thông tin phụ: Googlebot Desktop và Googlebot Smartphone. Sự phân chia này là cần thiết để lập chỉ mục các trang cho cả SERP trên máy tính để bàn và thiết bị di động.

  Làm thế nào để làm cho trang web của bạn thân thiện với thiết bị di động? (Hướng dẫn

Vài năm trước, Google đã sử dụng trình thu thập thông tin trên máy tính để bàn để truy cập và hiển thị hầu hết các trang. Nhưng mọi thứ đã thay đổi với phần giới thiệu khái niệm ưu tiên di động . Google nghĩ rằng thế giới đã đủ thân thiện với thiết bị di động và bắt đầu sử dụng Googlebot Smartphone để thu thập thông tin, lập chỉ mục và xếp hạng phiên bản di động của các trang web cho cả SERP trên thiết bị di động và máy tính để bàn.

Tuy nhiên, việc triển khai lập chỉ mục ưu tiên thiết bị di động hóa ra khó hơn dự kiến. Internet là rất lớn và hầu hết các trang web dường như được tối ưu hóa kém cho các thiết bị di động. Điều này khiến Google sử dụng khái niệm ưu tiên thiết bị di động để thu thập thông tin và lập chỉ mục các trang web mới và những trang web cũ đã được tối ưu hóa hoàn toàn cho thiết bị di động. Nếu một trang web không thân thiện với thiết bị di động, trang web đó sẽ được Googlebot Desktop thu thập thông tin và hiển thị trực tiếp.

Ngay cả khi trang web của bạn đã được chuyển đổi sang tính năng ưu tiên lập chỉ mục trên thiết bị di động, bạn vẫn sẽ có một số trang của mình được Googlebot Desktop thu thập thông tin, vì Google muốn kiểm tra cách trang web của bạn hoạt động trên máy tính để bàn. Google không trực tiếp nói rằng họ sẽ lập chỉ mục phiên bản dành cho máy tính để bàn của bạn nếu nó khác nhiều so với phiên bản dành cho thiết bị di động. Tuy nhiên, thật hợp lý khi giả định điều này, vì mục tiêu chính của Google là cung cấp cho người dùng thông tin hữu ích nhất. Và Google hầu như không muốn làm mất thông tin này khi tuân theo khái niệm ưu tiên thiết bị di động một cách mù quáng.

Lưu ý: Trong mọi trường hợp, trang web của bạn sẽ được cả Googlebot Mobile và Googlebot Desktop truy cập. Vì vậy, điều quan trọng là phải chăm sóc cả hai phiên bản trang web của bạn và nghĩ đến việc sử dụng bố cục đáp ứng nếu bạn chưa làm điều này.

Làm cách nào để biết liệu Google có thu thập dữ liệu và lập chỉ mục trang web của bạn với khái niệm ưu tiên thiết bị di động hay không? Bạn sẽ nhận được một thông báo đặc biệt trong Google Search Console.

Googlebot có thể gặp một số rắc rối với việc xử lý và hiển thị mã cồng kềnh. Nếu mã trang của bạn lộn xộn, trình thu thập thông tin có thể không hiển thị mã đúng cách và coi trang của bạn trống.

  20 Công cụ để Tiếp cận Xây dựng Liên kết trong Quy trình Làm việc Liền mạch

Đối với kết xuất JavaScript , bạn nên nhớ rằng JavaScript là một ngôn ngữ phát triển nhanh chóng và Googlebot đôi khi có thể không hỗ trợ các phiên bản mới nhất. Đảm bảo rằng JS của bạn tương thích với Googlebot, nếu không trang của bạn có thể hiển thị không chính xác.

Lưu ý đến thời gian tải JavaScript của bạn. Nếu một tập lệnh cần hơn 5 giây để tải, Googlebot sẽ không hiển thị và lập chỉ mục nội dung được tạo bởi tập lệnh đó.

Lưu ý : Nếu trang web của bạn chứa đầy các phần tử JavaScript nặng và bạn không thể làm được nếu không có chúng, Google đề xuất Trình kiểm tra trang web . Đi tới Tùy chọn > Cài đặt Sơ đồ trang web XML > Tạo Sơ đồ trang web và thiết lập các tùy chọn bạn cần. Đặt tên cho sơ đồ trang web của bạn ( Tên tệp sơ đồ trang web ) và tải nó xuống máy tính của bạn để gửi thêm cho Google hoặc xuất bản nó lên trang web của bạn ( Xuất bản sơ đồ trang web ).

Khi thu thập dữ liệu và lập chỉ mục các trang của bạn, Google tuân theo một số hướng dẫn nhất định, chẳng hạn như robots.txt, thẻ noindex , thẻ meta robots X-Robots- Gắn thẻ .

Robots.txt là một tệp thư mục gốc hạn chế một số trang hoặc phần tử nội dung từ Google. Khi Googlebot phát hiện ra trang của bạn, nó sẽ xem xét tệp robots.txt. Nếu trang được phát hiện bị hạn chế thu thập thông tin bởi robots.txt, Googlebot sẽ ngừng thu thập thông tin và tải bất kỳ nội dung cũng như tập lệnh nào từ trang đó. Trang này sẽ không xuất hiện trong tìm kiếm.

  Hướng dẫn cơ bản để xây dựng liên kết bị hỏng

Tệp Robots.txt có thể được tạo trong Trình kiểm tra trang web ( Tùy chọn > Cài đặt Robots.txt ).

Noindex tag , robot thẻ meta < strong> X-Robots-Tag là các thẻ được sử dụng để hạn chế trình thu thập thông tin thu thập thông tin và lập chỉ mục một trang. Thẻ noindex hạn chế việc lập chỉ mục trang của tất cả các loại trình thu thập thông tin. Thẻ meta rô bốt được sử dụng để URL thân thiện với người dùng được cả con người và thuật toán máy đánh giá cao. Googlebot không phải là một ngoại lệ. Googlebot có thể bị nhầm lẫn khi cố gắng hiểu các URL dài và giàu tham số. Và Googlebot càng “bối rối”, thì càng có nhiều tài nguyên thu thập dữ liệu được sử dụng trên một trang.

Để ngăn việc chi tiêu không cần thiết trong ngân sách thu thập thông tin của bạn, hãy đảm bảo rằng các URL của bạn thân thiện với người dùng. URL thân thiện với người dùng (và Googlebot) rõ ràng, tuân theo cấu trúc logic, có dấu câu thích hợp và không bao gồm các tham số phức tạp. Nói cách khác, URL của bạn sẽ trông như thế này:

http://example.com/vegetables/cucumbers/pickles

Lưu ý : Thật may mắn, tối ưu hóa ngân sách thu thập thông tin là không phức tạp như nó có vẻ. Nhưng sự thật là bạn chỉ cần lo lắng về điều này nếu bạn là