الگوریتم دنا چیست؟ | اهمیت فایل robots.txt در سئو
مقدمه: الگوریتم دنا چیست؟
آیا میدانستید که میتوانید به گوگل بگویید کدام صفحات سایت شما را بخزد و کدام صفحات را نادیده بگیرد؟ این کار با فایل robots.txt انجام میشود. الگوریتم دنا (Dena) در کراولر پیشرفته P2X دقیقاً به همین موضوع میپردازد: آیا سایت شما دارای فایل robots.txt صحیح و استاندارد است یا خیر؟
الگوریتم دنا از الگوریتمهای مثبت سیستم P2X محسوب میشود. این الگوریتم بررسی میکند که آیا فایل robots.txt در سایت وجود دارد، آیا دستورات آن صحیح هستند و آیا به درستی پیکربندی شده است یا خیر.
اما robots.txt چیست و چرا اینقدر مهم است؟ در ادامه، همه چیز را بررسی خواهیم کرد.
فایل robots.txt چیست و کجا قرار دارد؟
فایل robots.txt یک فایل متنی ساده در ریشه سایت است که به خزندههای موتورهای جستجو میگوید کدام بخشهای سایت را بخزند و کدام بخشها را نادیده بگیرند.
آدرس استاندارد: https://site.com/robots.txt
نمونه یک فایل robots.txt ساده:
User-agent: * Allow: / Disallow: /admin/ Disallow: /cart/ Disallow: /login/ Sitemap: https://site.com/sitemap.xml
دستورات اصلی فایل robots.txt
| دستور | توضیح | مثال |
|---|---|---|
User-agent |
مشخص میکند دستورات برای哪个 خزنده است | User-agent: Googlebot |
Allow |
اجازه خزش به یک مسیر | Allow: /blog/ |
Disallow |
ممنوعیت خزش از یک مسیر | Disallow: /admin/ |
Sitemap |
آدرس فایل Sitemap سایت | Sitemap: https://site.com/sitemap.xml |
Crawl-delay |
تأخیر بین درخواستها (بعضی موتورها) | Crawl-delay: 10 |
دستهبندی سایتها بر اساس وضعیت robots.txt
| دسته | وضعیت | توضیح |
|---|---|---|
| robots.txt کامل | وجود دارد + دستورات صحیح + Sitemap ذکر شده | ✅ عالی |
| robots.txt ساده | وجود دارد + فقط Allow/Disallow | ✅ خوب |
| robots.txt حداقلی | فقط User-agent: * بدون دستور |
⚠️ متوسط |
| بدون robots.txt | فایل وجود ندارد | ⚠️ متوسط (مشکل ندارد ولی فرصت از دست رفته) |
| robots.txt اشتباه | فایل وجود دارد اما دستورات اشتباه است | ❌ ضعیف |
نحوه عملکرد الگوریتم دنا در P2X
الگوریتم دنا به صورت دقیق طراحی شده است. مراحل اجرای این الگوریتم در کراولر P2X به این صورت است:
| مرحله | توضیح |
|---|---|
| ۱. درخواست robots.txt | الگوریتم به آدرس /robots.txt درخواست میفرستد |
| ۲. بررسی وجود | الگوریتم بررسی میکند آیا فایل وجود دارد یا خطای ۴۰۴ میدهد |
| ۳. تجزیه و تحلیل | الگوریتم دستورات robots.txt را تجزیه و تحلیل میکند |
| ۴. اعتبارسنجی | الگوریتم صحت دستورات (مسیرها، User-agentها) را بررسی میکند |
| ۵. امتیازدهی | بر اساس وضعیت robots.txt، امتیاز تعلق میگیرد |
نکته مهم: الگوریتم دنا فقط وجود فایل robots.txt را بررسی نمیکند. همچنین صحت دستورات، وجود خطاهای نحوی و ذکر Sitemap را نیز ارزیابی میکند.
چرا فایل robots.txt برای سئو مهم است؟
فایل robots.txt از چند جهت برای سئو و مدیریت خزش حائز اهمیت است:
| دلیل اهمیت | توضیح |
|---|---|
| مدیریت بودجه خزش (Crawl Budget) | گوگل زمان محدودی برای خزش سایت شما دارد، از آن بهینه استفاده کنید |
| جلوگیری از خزش صفحات بیارزش | صفحات داخلی (ادمین، سبد خرید، لاگین) را از خزش منع کنید |
| جلوگیری از محتوای تکراری | نسخههای چاپی، فیلترها و پارامترهای اضافی را منع کنید |
| معرفی Sitemap به گوگل | آدرس Sitemap را در robots.txt ذکر کنید تا گوگل پیدا کند |
| کنترل خزش خزندههای خاص | میتوانید برای گوگل، بینگ و سایر خزندهها قوانین جداگانه تعریف کنید |
بودجه خزش (Crawl Budget) چیست؟
بودجه خزش تعداد صفحاتی است که گوگل در یک بازه زمانی مشخص از سایت شما میخزد.
| معیار | تأثیر |
|---|---|
| سایتهای بزرگ (۱۰۰۰۰+ صفحه) | بودجه خزش محدود است -> robots.txt ضروری |
| سایتهای متوسط (۱۰۰۰-۱۰۰۰۰ صفحه) | بودجه خزش متوسط -> robots.txt مفید |
| سایتهای کوچک (کمتر از ۱۰۰۰ صفحه) | بودجه خزش کافی است -> robots.txt کم اهمیت تر |
معادل Google برای الگوریتم دنا
الگوریتم دنا در P2X معادل فاکتور "robots.txt file" در الگوریتمهای گوگل است. گوگل در مستندات رسمی خود اعلام کرده است:
"A robots.txt file tells search engine crawlers which pages or files the crawler can or can't request from your site. This is used mainly to avoid overloading your site with requests."
منابع معتبر گوگل برای مطالعه بیشتر:
تفاوت robots.txt با متا تگ noindex
| روش | عملکرد | سطح | جایگزین |
|---|---|---|---|
| robots.txt Disallow | جلوی خزش صفحه را میگیرد | خزنده | ❌ اگر صفحه قبلاً ایندکس شده باشد، میماند |
| متا تگ noindex | جلوی ایندکس صفحه را میگیرد | ایندکس | ✅ صفحه از نتایج حذف میشود |
نکته مهم: برای حذف یک صفحه از نتایج گوگل، از noindex استفاده کنید، نه robots.txt. robots.txt فقط جلوی خزش را میگیرد، ولی اگر صفحه قبلاً ایندکس شده باشد، باقی میماند.
راهکارهای بهینهسازی برای کسب امتیاز عالی از الگوریتم دنا
برای اینکه از الگوریتم دنا بهترین امتیاز را دریافت کنید، این راهکارها را رعایت کنید:
۱. فایل robots.txt ایجاد کنید
سادهترین روش: ایجاد فایل متنی به نام robots.txt در ریشه سایت.
آدرس: https://site.com/robots.txt
۲. حداقل دستورات ضروری را اضافه کنید
User-agent: * Allow: / Sitemap: https://site.com/sitemap.xml
۳. صفحات بیارزش را از خزش منع کنید
User-agent: * Allow: / Disallow: /admin/ Disallow: /wp-admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /login/ Disallow: /register/ Sitemap: https://site.com/sitemap.xml
۴. آدرس Sitemap را در robots.txt ذکر کنید
این کار به گوگل کمک میکند Sitemap شما را پیدا کند.
Sitemap: https://site.com/sitemap.xml
۵. از wildcardها (ستاره) به درستی استفاده کنید
| الگو | معنی | مثال |
|---|---|---|
* |
هر رشته دلخواه | Disallow: /user/*/cart |
$ |
پایان مسیر | Allow: /*.pdf$ |
۶. robots.txt را با ابزار Google تست کنید
از ابزار رسمی گوگل برای تست robots.txt استفاده کنید:
ابزار: Google Search Console → بخش robots.txt Tester
اشتباهات رایج در الگوریتم دنا
| اشتباه | توضیح | راهکار |
|---|---|---|
| بدون robots.txt | فایل وجود ندارد | ایجاد کنید (حتی خالی بهتر از هیچی است) |
| Disallow کل سایت | Disallow: / |
خزنده نمیتواند هیچ صفحهای بخزد |
| بلاک کردن فایلهای CSS/JS | بلاک کردن منابع ظاهری | گوگل برای رندرینگ به آنها نیاز دارد |
| استفاده از noindex در robots.txt | Disallow معادل noindex نیست |
از noindex در صفحه استفاده کنید |
| فراموشی Sitemap | Sitemap ذکر نشده | حتماً اضافه کنید |
مثال robots.txt برای سایتهای مختلف
سایت خبری:
User-agent: * Allow: / Disallow: /admin/ Disallow: /search/ Sitemap: https://site.com/sitemap.xml
فروشگاه اینترنتی:
User-agent: * Allow: / Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /wp-admin/ Sitemap: https://site.com/sitemap.xml
سایت شرکتی:
User-agent: * Allow: / Disallow: /admin/ Disallow: /temp/ Sitemap: https://site.com/sitemap.xml
تأثیر الگوریتم دنا بر سئو و رتبه گوگل
| فاکتور | تأثیر |
|---|---|
| robots.txt صحیح | مدیریت بهینه بودجه خزش -> ایندکس بهتر صفحات مهم |
| بدون robots.txt | بدون مشکل خاص، اما فرصت از دست رفته |
| robots.txt اشتباه | خزش نامناسب -> ممکن است صفحات مهم دیده نشوند |
جمعبندی نهایی
الگوریتم دنا (Dena) در کراولر P2X، یکی از الگوریتمهای مثبت است که وجود و صحت فایل robots.txt را بررسی میکند.
سه نکته کلیدی که باید همیشه به خاطر داشته باشید:
-
حتماً فایل robots.txt ایجاد کنید و صفحات بیارزش را از خزش منع کنید - این کار بودجه خزش گوگل را برای صفحات مهم ذخیره میکند.
-
هرگز صفحات مهم را با robots.txt بلاک نکنید - اگر صفحهای را بلاک کنید، گوگل آن را نخواهد دید و نمیتواند رتبهبندی کند.
-
آدرس Sitemap را در robots.txt ذکر کنید - این کار به گوگل کمک میکند Sitemap شما را پیدا کند و صفحات را بهتر بشناسد.
با رعایت این اصول، میتوانید از الگوریتم دنا امتیاز عالی دریافت کنید و خزش گوگل را در سایت خود بهینه کنید.
✍️ نظر خود را بنویسید