X
  • שנהיה בקשר?
    כל שאלה או בקשה תתקבל בברכה

    שדות המסומנים ב * הינם שדות חובה

יום הולדת שמח לקובץ Robots.txt – בתור מתנה גוגל מחליטים לאכוף את הסטנדרט

גוגל מודיעים על סטנדרט רשמי ל-robots.txt. על כל מה שזה אומר, על השינויים הצפויים וההשלכות על האתר שלכם, וגם מה צריך לעשות כדי ליישר קו - בכתבה של לימור ברנהולץ
התראות ישירות לתיבת המייל שלך
על כל מה שחדש בעולם הדיגיטל?
  • שדה זה הינו למטרות אימות וצריך להישאר ללא שינויים.

דמיינו לעצמכם, השנה היא 1994 והאינטרנט בדיוק מתחיל לתפוס תאוצה בעולם. גם תחום בניית האתרים הופך לנגיש הרבה יותר ואתרים רבים ומגוונים עולים לאויר, כולם עם אותה מטרה – שיגיעו אליהם וימצאו אותם. מנועי החיפוש מתאמצים לסרוק את כמויות התוכן והעמודים החדשים שעולים ברחבי האינטרנט בכל יום אבל מתקשים מאד לעמוד בקצב ולסרוק את כולם (וגם מאז הקצב רק עולה).

אז, בדיוק לפני 25 שנים בתאריך ה-3 ליולי, הגיע בחור הולנדי חביב בשם מרטין קוסטר, מהנדס תוכנה שהקים בעצמו מנוע חיפוש בשם Aliweb שנחשב למנוע החיפוש הראשון באינטרנט. אותו בחור חביב שהיה בעצם מחלוצי עולם החיפוש באינטרנט החליט שקצה נפשו בעומסים ובמשאבים שדורשים כל העמודים החדשים, וניסח פרוטוקול חדש כדי ליצור סטנדרט שיקל על כל מנהלי האתרים שרוצים שהעמודים החשובים להם באתר יסרקו.

בעזרת הפרוטוקול החדש כל מנהל אתר יוכל למנוע מעמודים לא חשובים או כאלה שהוא לא מעוניין שמנועי חיפוש יגשו אליהם מכל סיבה אחרת להיסרק ולאפשר למנוע החיפוש להשתמש במשאבי הסריקה שלו לטובת העמודים החשובים ביותר.

כך נולד לו לעולם קובץ ה-robots.txt

מזל טוב!

via GIPHY

אז בואו נבין רגע קצת יותר לעומק את הקובץ, את המהות, ואת המשמעות

מהו קובץ Robots.txt?

‏מהם Robots – מי אלו הרובוטים האלה שהקובץ הזה מדבר עליהם?

רובוטים, בוטים, קרולרים (Crawler) או אפילו עכבישים הם בעצם שירותים אוטומטיים שסורקים אתרים. באופן כללי לכל מנוע חיפוש יש כלי כזה שכל התפקיד שלו בעולם הוא לרוץ על גבי האינטרנט מ-URL ל-URL ופשוט לסרוק אותן. ככה מנועי החיפוש מגלים תכנים חדשים ברשת ושינויים לתכנים שכבר היו קיימים בה באופן אוטומטי (כלומר בלי "עידוד" שלנו כמו הגשת מפת אתר).

בוטים לדוגמה – Googlebot, Bingbot, msnbot, Googlebot-Image

‏מהו קובץ ה-Robots?
קובץ הרובוטס עצמו הוא קובץ טקסט רגיל (TXT) שבנוי בדרך מסוימת מאד ובמבנה קבוע, המתאים ומוסכם לקריאה ע"י הקרולרים של מנועי החיפוש השונים – מה שאומר שפה פשוטה מאד, ומבנה מדויק. הקובץ נקרא גם לפעמים "קובץ חריגות לבוטים", ונוצר במקור בעיקר תודות להסכמות עקרוניות בין מנועי החיפוש למנהלי האתרים על כך שישנם מקומות שחסימת גישה אליהם היא לגיטימית, כמו שאמרנו – בעיקר כדי לחסוך משאבי סריקה ומיקוד הסריקה בעמודים חשובים.

חשוב לזכור שהקובץ מהווה המלצה בלבד למנועי החיפוש, לא חסימה אבטחתית מסוג כלשהו, ושגם אם עמוד כלשהו אינו מורשה לסריקה בקובץ עדיין יכול להיות שמנועי החיפוש יגיעו אליו מקישור חיצוני או מקור אחר.

מה עושה קובץ Robots?

בגדול – אומר לבוטים של מנועי החיפוש להיכן יש להם גישה באתר ולהיכן אין.

כאמור, הבוטים מדלגים להם מ-URL ל-URL בין האתרים וכך סורקים את הרשת.
לפני שהם עוברים מ-URL ל-URL הם עוצרים לרגע בקובץ שלנו ובודקים אם יש להם גישה לשם.
אם יש להם גישה הם יסרקו את ה-URL שמצאו וימשיכו הלאה, אם אין להם גישה אז הם לא יסרקו את ה-URL שאליו הגיעו וימשיכו ל-URL הבא.

  • מנועי החיפוש שומרים בדר"כ את גרסאות קבצי ה-Robots שהם מוצאים ובודקים אותן מחדש מספר פעמים ביום – כך ששינויים שנעשים בקובץ נקלטים באופן די מהיר ע"י מנועי החיפוש ברוב הפעמים.
  • בנוסף לחסימה של תיקיות מומלץ שיהיה קיים בקובץ גם קישור למפת האתר, מה שמאפשר לבוטים לקבל רשימה של כל עמודי האתר בצורה מסודרת וקלה ולסרוק אותם בהמשך.

בעד ונגד שימוש ב-Robots.txt

בעד
תקציב סריקה (זחילה) – מכיוון שהעולם רווי באתרי אינטרנט, עמודי אינטרנט ותכנים משלל נושאים וצורות, המשאבים הדרושים ממנועי החיפוש להמשיך לסרוק ולהגיע לכל העמודים האלה ולעמוד בקצב ההתחדשות והעליה שלהם הם מאד מאד גדולים.

לכן, לכל אתר יש "מכסת זחילה" הקובעת כמה עמודים יסרקו ע"י הקרולרים באתר שלכם, מה שנקרא גם תקציב זחילה. ע"י חסימת תיקיות לא רלוונטיות באתר לסריקת הבוטים אתם בעצם מונעים "בזבוז" של התקציב ומעודדים אותם להמשיך הלאה ולסרוק את העמודים שאתם כן רוצים שהם יסרקו תחת המכסה הזו.

נגד
תוצאות חיפוש חסומות – אנחנו אמנם יכולים להגיד למנועי החיפוש אילו עמודים לא לסרוק, אבל אנחנו לא יכולים לומר להם אילו עמודים להראות בתוצאות החיפוש. במידה וישנו עמוד שחסום בקובץ ה-Robots אבל מנוע החיפוש מחליט שהוא רוצה להציג אותו בתוצאות החיפוש לביטוי כלשהו זה יראה כך –

דוגמא לנראות עבור תוצאות חיפוש חסומות

לכן, מומלץ להקדים תרופה למכה ולודא ש-

  1.  אין קישורים מתוך האתר שלכם לכתובות שצריכות להיות חסומות בקובץ
  2.  בקוד העמוד עצמו הוכנסה תגית META החוסמת אותו לסריקה והופעה בתוצאות ע"י NoIndex

מבנה קובץ Robots.txt

אז כמו שאמרנו, קובץ ה-Robots הוא קובץ טקסט פשוט, שנועד לסמן לסורקים של מנועי החיפוש למיניהם להיכן אין צורך שיכנסו באתרים ואיפה נמצאת מפת האתר שלהם, שיכולה לספק להם רשימה מסודרת של העמודים הרלוונטיים באתר. ככזה, רוב הקובץ מכיל פשוט התייחסות לגבי הבוט שהוא מדבר עליו\אליו (User Agent), ותיקיות החסומות לגישה.

כל קובץ צריך להתחיל בהצהרת ה-User Agent הרלוונטי (*/Googlebot/Bingbot וכד'), ואחריה הפקדים (Allow/Disallow/Sitemap) והתיקיות החסומות לו.
לדוגמה:

User-agent: googlebot
Disallow: /photo/

Sitemap: https://www.site.com/sitemap-index.xml

חלק ממנהלי האתרים משתמשים בקובץ כדי לנסות ולתקשר בצורה מתקדמת יותר עם הבוטים, והכניסו פקדים שלא נתמכים רשמית כמו Host ו-Crawl Delay כדי להגדיל את השליטה על הסריקה (אם מה שלא עובד לא פוגע בך – למה לא לנסות את הכל?)

מעולה! עכשיו הבנתי מה זה הקובץ הזה, אז מה גוגל רוצים ממנו?

קודם כל מעולה שהבנתם, לא היה לנו ספק!

ועכשיו לעניינינו – גוגל הודיעו שלשום שלאחר שנים רבות של כוונות לעשות את זה, הוחלט לכבוד יום הולדת ה-25 לקובץ שהחל מה-1 לספטמבר השנה הסטנדרט שהציע מרטין מיודענו יהפוך לסטנדרט הרשמי לקובץ, והם יפסיקו לתמוך בכל מיני פקדים מיוחדים שמנהלי אתרים משתמשים בהם ואינם חלק מאותו סטנדרט, בעיקר ב-NoIndex ו-NoFollow

אז איך בנוי עכשיו הקובץ, מה השתנה?
כלום.

מבנה הקובץ תמיד היה קבוע ודרש סדר ו-Syntax מסוים. כאן אין שום שינוי.

את שניים מהפקדים שגוגל מתייחסים אליהם – Crawl Delay ו-Host – הזכרנו תחת סעיף מבנה הקובץ, שמוכרים ע"י Bing, Yandex ו-Yahoo! אבל גוגל אינו מכיר בהם.
גוגל פשוט ימשיכו לא להכיר בהם, אבל עכשיו באופן רשמי.

שני הפקדים האחרים הם פקדי Meta ומעולם לא נועדו להיות בתוך הקובץ, אלא ב-HTML של עמודי האתר עצמם (אם אנחנו רוצים שמנועי חיפוש לא יסרקו אותם).
גם כאן גוגל פשוט הופכים את הנושא לרשמי, מונעים אי אלו אי-הבנות, ואומרים למנהלי האתרים להשתמש בפקדים השונים במקומם הנכון והראוי.

אופס, יש את הדברים האלה ב-Robots.txt של האתר שלי, מה לעשות?

via GIPHY

אל דאגה, במידה ואתם משתמשים באחד מהפקדים האלה כל מה שאתם צריכים לעשות הוא – להסיר אותו משם. במקרה הטוב הוא לא מועיל, החל מספטמבר הוא יכול גם להזיק לכם.

אם תרצו בכל זאת לחסום לאינדוקס את אותם עמודים שהיו חסומים בקובץ יש לכם כמה אלטרנטיבות:

  1. שימוש בתגית ה-NoIndex במקומה הנכון – ב-Meta של העמוד עצמו באתר
  2. הסרה של העמודים האלו מהאויר\הגדרה שיחזירו קוד שגיאה 404 או 410 בנסיון לגשת אליהם. אם גוגל יבין שהעמודים לא קיימים הוא גם יסיר אותם מהאינדקס
  3. הפנייה של העמודים האלו לכתובת אחרת רלוונטית שכן רוצים לאנדקס ע"י הפניית 301
  4. הגדרת Disallow לאותם עמודים בקובץ ה-robots.txt (לא מבטיח שלא יופיעו באינדקס)
  5. העברת עמודים אלו לאזור הדורש התחברות של הגולש
  6. הסרת העמודים האלו מהאינדקס ע"י Google Search Console – אמנם מסיר את העמוד באופן זמני בדר"כ, אבל בהחלט השיטה המהירה ביותר לעשות זאת

לסיכום
אין באמת חדש תחת השמש עם ההודעה האחרונה של גוגל, מדובר סך הכל בהפיכת פרוטוקול מוסכם לרשמי. עם זאת, כמו בכל דבר שגוגל "מיישר קו" לגביו, זה לא מופרך לצפות בהמשך הדרך גם שיהיו בעיות למי שלא מתיישר עם אותו קו. אז אם במקרה אתם יודעים שאצלכם באתר קיים שימוש בפקדים לא תקינים, אם אתם חושבים שלא מספיק מהעמודים החשובים שלכם באתר נסרקים ומופיעים בגוגל, או אם אתם פשוט מרגישים שהאתר שלכם לא ממצה את הפוטנציאל שלו בחיפוש – דברו איתנו, נשמח לבדוק את האתר שלכם