الگوریتم دنا چیست؟ | اهمیت فایل robots.txt در سئو


مقدمه: الگوریتم دنا چیست؟

آیا می‌دانستید که می‌توانید به گوگل بگویید کدام صفحات سایت شما را بخزد و کدام صفحات را نادیده بگیرد؟ این کار با فایل robots.txt انجام می‌شود. الگوریتم دنا (Dena) در کراولر پیشرفته P2X دقیقاً به همین موضوع می‌پردازد: آیا سایت شما دارای فایل robots.txt صحیح و استاندارد است یا خیر؟

الگوریتم دنا از الگوریتم‌های مثبت سیستم P2X محسوب می‌شود. این الگوریتم بررسی می‌کند که آیا فایل robots.txt در سایت وجود دارد، آیا دستورات آن صحیح هستند و آیا به درستی پیکربندی شده است یا خیر.

اما robots.txt چیست و چرا اینقدر مهم است؟ در ادامه، همه چیز را بررسی خواهیم کرد.


فایل robots.txt چیست و کجا قرار دارد؟

فایل robots.txt یک فایل متنی ساده در ریشه سایت است که به خزنده‌های موتورهای جستجو می‌گوید کدام بخش‌های سایت را بخزند و کدام بخش‌ها را نادیده بگیرند.

آدرس استاندارد: https://site.com/robots.txt

نمونه یک فایل robots.txt ساده:

txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /cart/
Disallow: /login/

Sitemap: https://site.com/sitemap.xml

دستورات اصلی فایل robots.txt

 
 
دستور توضیح مثال
User-agent مشخص می‌کند دستورات برای哪个 خزنده است User-agent: Googlebot
Allow اجازه خزش به یک مسیر Allow: /blog/
Disallow ممنوعیت خزش از یک مسیر Disallow: /admin/
Sitemap آدرس فایل Sitemap سایت Sitemap: https://site.com/sitemap.xml
Crawl-delay تأخیر بین درخواست‌ها (بعضی موتورها) Crawl-delay: 10

دسته‌بندی سایت‌ها بر اساس وضعیت robots.txt

 
 
دسته وضعیت توضیح
robots.txt کامل وجود دارد + دستورات صحیح + Sitemap ذکر شده ✅ عالی
robots.txt ساده وجود دارد + فقط Allow/Disallow ✅ خوب
robots.txt حداقلی فقط User-agent: * بدون دستور ⚠️ متوسط
بدون robots.txt فایل وجود ندارد ⚠️ متوسط (مشکل ندارد ولی فرصت از دست رفته)
robots.txt اشتباه فایل وجود دارد اما دستورات اشتباه است ❌ ضعیف

نحوه عملکرد الگوریتم دنا در P2X

الگوریتم دنا به صورت دقیق طراحی شده است. مراحل اجرای این الگوریتم در کراولر P2X به این صورت است:

 
 
مرحله توضیح
۱. درخواست robots.txt الگوریتم به آدرس /robots.txt درخواست می‌فرستد
۲. بررسی وجود الگوریتم بررسی می‌کند آیا فایل وجود دارد یا خطای ۴۰۴ می‌دهد
۳. تجزیه و تحلیل الگوریتم دستورات robots.txt را تجزیه و تحلیل می‌کند
۴. اعتبارسنجی الگوریتم صحت دستورات (مسیرها، User-agentها) را بررسی می‌کند
۵. امتیازدهی بر اساس وضعیت robots.txt، امتیاز تعلق می‌گیرد

نکته مهم: الگوریتم دنا فقط وجود فایل robots.txt را بررسی نمی‌کند. همچنین صحت دستورات، وجود خطاهای نحوی و ذکر Sitemap را نیز ارزیابی می‌کند.


چرا فایل robots.txt برای سئو مهم است؟

فایل robots.txt از چند جهت برای سئو و مدیریت خزش حائز اهمیت است:

 
 
دلیل اهمیت توضیح
مدیریت بودجه خزش (Crawl Budget) گوگل زمان محدودی برای خزش سایت شما دارد، از آن بهینه استفاده کنید
جلوگیری از خزش صفحات بی‌ارزش صفحات داخلی (ادمین، سبد خرید، لاگین) را از خزش منع کنید
جلوگیری از محتوای تکراری نسخه‌های چاپی، فیلترها و پارامترهای اضافی را منع کنید
معرفی Sitemap به گوگل آدرس Sitemap را در robots.txt ذکر کنید تا گوگل پیدا کند
کنترل خزش خزنده‌های خاص می‌توانید برای گوگل، بینگ و سایر خزنده‌ها قوانین جداگانه تعریف کنید

بودجه خزش (Crawl Budget) چیست؟

بودجه خزش تعداد صفحاتی است که گوگل در یک بازه زمانی مشخص از سایت شما می‌خزد.

 
 
معیار تأثیر
سایت‌های بزرگ (۱۰۰۰۰+ صفحه) بودجه خزش محدود است -> robots.txt ضروری
سایت‌های متوسط (۱۰۰۰-۱۰۰۰۰ صفحه) بودجه خزش متوسط -> robots.txt مفید
سایت‌های کوچک (کمتر از ۱۰۰۰ صفحه) بودجه خزش کافی است -> robots.txt کم اهمیت تر

معادل Google برای الگوریتم دنا

الگوریتم دنا در P2X معادل فاکتور "robots.txt file" در الگوریتم‌های گوگل است. گوگل در مستندات رسمی خود اعلام کرده است:

"A robots.txt file tells search engine crawlers which pages or files the crawler can or can't request from your site. This is used mainly to avoid overloading your site with requests."

منابع معتبر گوگل برای مطالعه بیشتر:


تفاوت robots.txt با متا تگ noindex

 
 
روش عملکرد سطح جایگزین
robots.txt Disallow جلوی خزش صفحه را می‌گیرد خزنده ❌ اگر صفحه قبلاً ایندکس شده باشد، می‌ماند
متا تگ noindex جلوی ایندکس صفحه را می‌گیرد ایندکس ✅ صفحه از نتایج حذف می‌شود

نکته مهم: برای حذف یک صفحه از نتایج گوگل، از noindex استفاده کنید، نه robots.txt. robots.txt فقط جلوی خزش را می‌گیرد، ولی اگر صفحه قبلاً ایندکس شده باشد، باقی می‌ماند.


راهکارهای بهینه‌سازی برای کسب امتیاز عالی از الگوریتم دنا

برای اینکه از الگوریتم دنا بهترین امتیاز را دریافت کنید، این راهکارها را رعایت کنید:

۱. فایل robots.txt ایجاد کنید

ساده‌ترین روش: ایجاد فایل متنی به نام robots.txt در ریشه سایت.

آدرس: https://site.com/robots.txt


۲. حداقل دستورات ضروری را اضافه کنید

txt
User-agent: *
Allow: /

Sitemap: https://site.com/sitemap.xml

۳. صفحات بی‌ارزش را از خزش منع کنید

txt
User-agent: *
Allow: /

Disallow: /admin/
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /login/
Disallow: /register/

Sitemap: https://site.com/sitemap.xml

۴. آدرس Sitemap را در robots.txt ذکر کنید

این کار به گوگل کمک می‌کند Sitemap شما را پیدا کند.

txt
Sitemap: https://site.com/sitemap.xml

۵. از wildcardها (ستاره) به درستی استفاده کنید

 
 
الگو معنی مثال
* هر رشته دلخواه Disallow: /user/*/cart
$ پایان مسیر Allow: /*.pdf$

۶. robots.txt را با ابزار Google تست کنید

از ابزار رسمی گوگل برای تست robots.txt استفاده کنید:

ابزار: Google Search Console → بخش robots.txt Tester


اشتباهات رایج در الگوریتم دنا

 
 
اشتباه توضیح راهکار
بدون robots.txt فایل وجود ندارد ایجاد کنید (حتی خالی بهتر از هیچی است)
Disallow کل سایت Disallow: / خزنده نمی‌تواند هیچ صفحه‌ای بخزد
بلاک کردن فایل‌های CSS/JS بلاک کردن منابع ظاهری گوگل برای رندرینگ به آنها نیاز دارد
استفاده از noindex در robots.txt Disallow معادل noindex نیست از noindex در صفحه استفاده کنید
فراموشی Sitemap Sitemap ذکر نشده حتماً اضافه کنید

مثال robots.txt برای سایت‌های مختلف

سایت خبری:

txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search/

Sitemap: https://site.com/sitemap.xml

فروشگاه اینترنتی:

txt
User-agent: *
Allow: /
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wp-admin/

Sitemap: https://site.com/sitemap.xml

سایت شرکتی:

txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /temp/

Sitemap: https://site.com/sitemap.xml

تأثیر الگوریتم دنا بر سئو و رتبه گوگل

 
 
فاکتور تأثیر
robots.txt صحیح مدیریت بهینه بودجه خزش -> ایندکس بهتر صفحات مهم
بدون robots.txt بدون مشکل خاص، اما فرصت از دست رفته
robots.txt اشتباه خزش نامناسب -> ممکن است صفحات مهم دیده نشوند

جمع‌بندی نهایی

الگوریتم دنا (Dena) در کراولر P2X، یکی از الگوریتم‌های مثبت است که وجود و صحت فایل robots.txt را بررسی می‌کند.

سه نکته کلیدی که باید همیشه به خاطر داشته باشید:

  1. حتماً فایل robots.txt ایجاد کنید و صفحات بی‌ارزش را از خزش منع کنید - این کار بودجه خزش گوگل را برای صفحات مهم ذخیره می‌کند.

  2. هرگز صفحات مهم را با robots.txt بلاک نکنید - اگر صفحه‌ای را بلاک کنید، گوگل آن را نخواهد دید و نمی‌تواند رتبه‌بندی کند.

  3. آدرس Sitemap را در robots.txt ذکر کنید - این کار به گوگل کمک می‌کند Sitemap شما را پیدا کند و صفحات را بهتر بشناسد.

با رعایت این اصول، می‌توانید از الگوریتم دنا امتیاز عالی دریافت کنید و خزش گوگل را در سایت خود بهینه کنید.