Robots.txt под joomla – давайте разберемся вместе! (или проблема выдачи дубликатов страниц в индексе поиска)

Печать E-mail
Метки: robots.txt SEO Joomla sef параметры индексация
( 3 Votes )
SEO Joomla поисковая оптимизация сайта
Автор: Rudman   
26.03.2009 13:26
Лучшая система размещения статей
DotFun.Ru кризис с юмором!

Настройка Robots.txt для Joomla 1.5

В общем, давайте попробуем разобраться с этим хитрым файликом (robots.txt), который просто обязан храниться в корне у каждого сайта, который претендует на нормальную поисковую индексацию. Улыбается
 
Отталкиваться от того, что система SEF у нас настроена и работает «как надо» (в данном случае sh404sef) и структура Вашего сайта Вам ясна и понятна. Ни для кого не секрет что многие компоненты оставляют нам «хвосты» в виде значений переменных при формировании вида страниц. Когда компонент корректно обрабатывается SEF компонентом достаточно просто отрубить индексацию «папки» компонентов.

Например у меня был компонент календарь, который добавлял кучу неинформативных станиц с одинаковым контентом, который потом в итоге засоряет поискового робота да и страницы эти из выдачи выпадут по причине одинаковости.

Вида эти страницы были:

www.site.ru/component/option,co...12/modid,32/month,03/year,2009/

Сами понимаете такие ссылки в выдаче ни к чему – поэтому индексацию их нужно заблокировать.
Здесь все более менее понятно. К слову советую заблокировать и файл *index.php к индексации.

Гораздо сложнее разобраться со страницами, в которых указаны параметры, некоторые компоненты создают такие страниц, параметры не обрабатываются SEF компонентом, поэтому их необходимо (если нужно) запрещать вручную.

Например для вывода страниц рекламы adsence я использую плагин MultiAds, который позволяет легко встраивать рекламные модули непосредственно в страницы контента в разные позиции (разберем его в другой раз, он очень простой). В страницах он создает свои страницы для идентификации своих блоков добавляя параметр «&frontPageAdsCount=x».

Естественно эти страницы являются «дублирующими» и ни одной поисковой системе будь то Yandex или Google не понравится куча страниц с одинаковым содержанием, которое система после анализа сама же начнет «выбрасывать» из индекса и из выдачи, да и нам такие страницы в выдачи не нужны!

Можно просто блокировать выдачу посредством записи:

Disallow: /*frontPageAdsCount=

Гугл отлично справляется с запретом на индексацию, но такой способ не совсем удобен, более логично применять синтаксис, который позволяет отбрасывать параметры

Clean-param: параметр& путь/

Синтаксис стандартный, однако мне так и не удалось понять «понимает» ли Google этот синтаксис, а Яндекс при попытке протестировать страницы в настройках панели вебмастера в разделе Robots.txt выдает ошибку синтаксиса, о чем я писал в суппорт

Ошибку мне выдавало следующую: "Некорректный формат директивы Clean-param"

Вот ответ:

Здравствуйте, Кирилл!

Вы все делаете верно, к сожалению, анализатор на данный момент отдает некорректный ответ.
Страницы с ошибками 404 автоматически удалятся из раздела ошибок, если на них не указаны ссылки. Ускорить процесс можно запретив индексирование страниц с ошибками в файле robots.txt с помощью директивы Disallow -
http://help.yandex.ru/webmaster/?id=996567

Просим Вас высказать свое мнение о полученном ответе:
http://feedback.yandex.ru/appraisal.xml?session=c40377eb07b8ad94fb7c367c4339508d&ticketnumber=200901279003205

--
С уважением, Платон Щукин
Служба поддержки Яндекс.Ру
http://help.yandex.ru/


 

Проблема получается из за того, что SEF не перехватывает параметры, они идут при формировании ссылки после знака «?».
Особенно много в выдачи у меня оказалось ссылок вида:

www.site.ru/?lang=ru&Itemid=5&view=&limit=5&month=10

А ведь, на таких страницах все будет расположено «не совсем так, как нужно», да и формат выдачи может быть совсем не такой как нужно для SEO целей. Подмигивает
Другая проблема появляется тогда, когда вы не используете SEF обработчик для некоторых компонентов, например, я, не использую его для выдачи Google map или для компонента закачки и скачивания файлов (проблема с кэшем). Тут «лишние» параметры расползаются, как тараканы по поисковой индексации …

Привожу кусок своего robots.txt (актуальную версию вы можете найти на сайте www.dotfun.ru/robots.txt Очень счастлив ), который блокирует-то, что необходимо мне:

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=3&view=xml&no_html=1
Disallow: /components/
Disallow: /component/*
Disallow: /*frontPageAdsCount=
Disallow: /*option=
Disallow: /*lang=
Disallow: /*month=
Disallow: /*page=
Disallow: /*month=
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*cat_id=
Disallow: /*Pechat.html
Clean-param: frontPageAdsCount⟨&Itemid&option&view&limit&month&year&cat_id /
Sitemap: http://www.dotfun.ru/index.php?option=com_xmap&sitemap=3&view=xml&no_html=1



В общем, успехов Вам в нелегком SEO деле, всегда Ваш, Rudman

PS    Ссылки удобно покупать в Seopult это не реклама!
           За 300 рублей в месяц ничего не делая я сделал ТИц=40 у этого сайта за 2 месяца!


 

Комментарии  

 
0 #11 Onemonk 2010-07-08 15:13 бороздя инет почти полдня нашел вот - можно даже скачать готовый: http://rabotaisam.ru/robotstxt/what-robotstxt.html Цитировать
 
 
0 #10 Onemonk 2010-07-08 10:41 Неправильный!!! !!!
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Цитировать
 
 
0 #9 globalZag 2010-05-06 03:07 Всех с праздничком с прошедшим и наступающим!!! как думаете теракты будут или нет а то чтото стрёмно быть в толпе на параде ((( Цитировать
 
 
0 #8 Анатолий_Ivanov 2010-04-02 17:57 Посмотрел на http://www.dotfun.ru/robots.txt

Зачем написали для каждого робота адреса карт сайта?
Достаточно их указать для User-agent:*,
Яндекс и Google берет их оттуда. Проверьте robots.txt вебмастере яндекса и увидите что он их читает 3 раза. Так же и с гуглом
Цитировать
 
 
0 #7 Ant 2010-03-22 16:53 Для тех, у кого xmap в яшу не влазит. создаем правило для xml в htaccess и делаем переадресацию в sh404sef а потом ее и пихаем яше. если у вас виртумарт, то сначала отключаем подгрузку товаров в карту хмл потом кормим яшу а потом включаем Цитировать
 
 
-1 #6 Ant 2010-03-20 03:15 как насчет такой?
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=3&view=xml&no_html=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?
Disallow: /*option=
Disallow: /*lang=
Disallow: /*month=
Disallow: /*page=
Disallow: /*month=
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*cat_id=
Disallow: /*Pechat.html


Host: MYSITE.ru
Sitemap: http://MYSITE.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Цитировать
 
 
-3 #5 Toreador 2009-06-24 14:11 HTTP-статус: Доступ к ресурсу запрещён (403)

Ошибок: 2 |
URL

Найдено по внешней ссылке
14.06.2009 14.06.2009
/index.php

Что при этом делать?
Я напсал так:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/
Disallow: /forum/
Allow: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Sitemap: http://my_site/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Allow: /index.php
Allow: /index.html

Сработает для ЯНДЕКСА?
Цитировать
 
 
-2 #4 Тупой 2009-05-04 16:48 Цитирую Sulpher:
Я обычно использую такой robots.txt (J1.0 и J1.5):

User-agent: *
Disallow: /?option=
Disallow: /?replyto=
Disallow: /?mosmsg=
Disallow: /?
Disallow: /profil/
Disallow: /index2.php?option=com_content
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /component/option,com_news feeds/
Disallow: /component/option,com_wrap per/
Что скажете? Может дополним с вашим?


вот что отмечу из интеерсного

Disallow: /index2.php?option=com_content

действительно подумываю так и добавить

по замечаниям:

Disallow: /? - вот эта строка! по моему елси вы пишите так то первые три автоматически итак попадают по эту! - соответственно у вас ВСЕ параметры запрещены … считаю, что не всегда ВСЕ параметры нужно запрещать + если вы уверены, что у вас правильно SEF настроен
Цитировать
 
 
-2 #3 Sulpher 2009-05-04 00:38 Я обычно использую такой robots.txt (J1.0 и J1.5):

User-agent: *
Disallow: /?option=
Disallow: /?replyto=
Disallow: /?mosmsg=
Disallow: /?
Disallow: /profil/
Disallow: /index2.php?option=com_content
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /component/option,com_news feeds/
Disallow: /component/option,com_wrap per/
Что скажете? Может дополним с вашим?
Цитировать
 
 
-3 #2 Админ 2009-04-20 15:57 Цитирую Алёшенька:
Чего-то я не понял в итоге, что и где и как менять… Буду читать вторую статью…

менять что-либо "приложив голову" надо только в этом файле www.твой сайт.ru/robots.txt любые вопросы спрашивай на все отвечу ! Улыбается
Цитировать
 

Добавить комментарий


Защитный код
Обновить