Robots.txt под joomla – давайте разберемся вместе! (или проблема выдачи дубликатов страниц в индексе поиска)

Печать Email
Метки: robots.txt SEO Joomla sef параметры индексация
( 6 Votes )
SEO Joomla поисковая оптимизация сайта
Автор: Rudman   
26.03.2009 13:26

Настройка Robots.txt для Joomla 1.5

В общем, давайте попробуем разобраться с этим хитрым файликом (robots.txt), который просто обязан храниться в корне у каждого сайта, который претендует на нормальную поисковую индексацию. Улыбается
 
Отталкиваться от того, что система SEF у нас настроена и работает «как надо» (в данном случае sh404sef) и структура Вашего сайта Вам ясна и понятна. Ни для кого не секрет что многие компоненты оставляют нам «хвосты» в виде значений переменных при формировании вида страниц. Когда компонент корректно обрабатывается SEF компонентом достаточно просто отрубить индексацию «папки» компонентов.

Например у меня был компонент календарь, который добавлял кучу неинформативных станиц с одинаковым контентом, который потом в итоге засоряет поискового робота да и страницы эти из выдачи выпадут по причине одинаковости.

Вида эти страницы были:

www.site.ru/component/option,co...12/modid,32/month,03/year,2009/

Сами понимаете такие ссылки в выдаче ни к чему – поэтому индексацию их нужно заблокировать.
Здесь все более менее понятно. К слову советую заблокировать и файл *index.php к индексации.

Гораздо сложнее разобраться со страницами, в которых указаны параметры, некоторые компоненты создают такие страниц, параметры не обрабатываются SEF компонентом, поэтому их необходимо (если нужно) запрещать вручную.

Например для вывода страниц рекламы adsence я использую плагин MultiAds, который позволяет легко встраивать рекламные модули непосредственно в страницы контента в разные позиции (разберем его в другой раз, он очень простой). В страницах он создает свои страницы для идентификации своих блоков добавляя параметр «&frontPageAdsCount=x».

Естественно эти страницы являются «дублирующими» и ни одной поисковой системе будь то Yandex или Google не понравится куча страниц с одинаковым содержанием, которое система после анализа сама же начнет «выбрасывать» из индекса и из выдачи, да и нам такие страницы в выдачи не нужны!

Можно просто блокировать выдачу посредством записи:

Disallow: /*frontPageAdsCount=

Гугл отлично справляется с запретом на индексацию, но такой способ не совсем удобен, более логично применять синтаксис, который позволяет отбрасывать параметры

Clean-param: параметр& путь/

Синтаксис стандартный, однако мне так и не удалось понять «понимает» ли Google этот синтаксис, а Яндекс при попытке протестировать страницы в настройках панели вебмастера в разделе Robots.txt выдает ошибку синтаксиса, о чем я писал в суппорт

Ошибку мне выдавало следующую: "Некорректный формат директивы Clean-param"

Вот ответ:

Здравствуйте, Кирилл!

Вы все делаете верно, к сожалению, анализатор на данный момент отдает некорректный ответ.
Страницы с ошибками 404 автоматически удалятся из раздела ошибок, если на них не указаны ссылки. Ускорить процесс можно запретив индексирование страниц с ошибками в файле robots.txt с помощью директивы Disallow -
http://help.yandex.ru/webmaster/?id=996567

Просим Вас высказать свое мнение о полученном ответе:
http://feedback.yandex.ru/appraisal.xml?session=c40377eb07b8ad94fb7c367c4339508d&ticketnumber=200901279003205

--
С уважением, Платон Щукин
Служба поддержки Яндекс.Ру
http://help.yandex.ru/


 

Проблема получается из за того, что SEF не перехватывает параметры, они идут при формировании ссылки после знака «?».
Особенно много в выдачи у меня оказалось ссылок вида:

www.site.ru/?lang=ru&Itemid=5&view=&limit=5&month=10

А ведь, на таких страницах все будет расположено «не совсем так, как нужно», да и формат выдачи может быть совсем не такой как нужно для SEO целей. Подмигивает
Другая проблема появляется тогда, когда вы не используете SEF обработчик для некоторых компонентов, например, я, не использую его для выдачи Google map или для компонента закачки и скачивания файлов (проблема с кэшем). Тут «лишние» параметры расползаются, как тараканы по поисковой индексации …

Привожу кусок своего robots.txt (актуальную версию вы можете найти на сайте www.dotfun.ru/robots.txt Очень счастлив ), который блокирует-то, что необходимо мне:

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=3&view=xml&no_html=1
Disallow: /components/
Disallow: /component/*
Disallow: /*frontPageAdsCount=
Disallow: /*option=
Disallow: /*lang=
Disallow: /*month=
Disallow: /*page=
Disallow: /*month=
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*cat_id=
Disallow: /*Pechat.html
Clean-param: frontPageAdsCount⟨&Itemid&option&view&limit&month&year&cat_id /
Sitemap: http://www.dotfun.ru/index.php?option=com_xmap&sitemap=3&view=xml&no_html=1



В общем, успехов Вам в нелегком SEO деле, всегда Ваш, Rudman

PS    Ссылки удобно покупать в Seopult это не реклама!
           За 300 рублей в месяц ничего не делая я сделал ТИц=40 у этого сайта за 2 месяца!


 


Комментарии  

 
0 #15 Серефка 2011-09-04 22:19 Цитирую Onemonk:
бороздя инет почти полдня нашел вот - можно даже скачать готовый: http://rabotaisam.ru/robotstxt/what-robotstxt.html

Люди весь день просидел в инете с правильным заполнением robots.txt спасибо Онемонку за самую информативную ссылко…
Цитировать
 
 
0 #14 Newzon.ru 2011-03-30 21:03 Disallow: /frontpage/
Disallow: /content/
Disallow: /index2.php?option=com_content
Disallow: /index.php?option=com_content

вот так надо
Цитировать
 
 
0 #13 Administrator 2010-08-26 17:42 Цитирую майкл:
Искал в нете долго и не нашел, спрашиваю у Вас: сайту 3 недели, в индексе гугла страниц нет, все как положено скормил (карту, роботс) и гугл хорошо принял при этом пишет "загружено 172 стр, в индексе 0",при запросе www.site.ru я на 70 месте и это не главная страница , а www.site.ru/index.php?option=com_jcomments&tmpl=component (пустая страница с добавлением комментария), вот решил закрыть в роботс, как правильно сделать?


Добрый день!

Все верно и не стоит ничего закрывать к индексации (во всяком случае пока еще)

смысл в том, что все молодные сайты в гугле попадают в "песочницу" или так называемые "сопли гугла" (поищите по этим ключам найдете объяснение!)

смысл в том, что сначала сайт индексируется но в выдачу не попадает- точнее как правило попадает ТОЛЬКО главная страница - если со временем Googl не найдет проблем с сайтом (продажных ссылок и т.д) то сайт попадет в нормальную выдачу Улыбается не переживайте

вот сервис который сам юзаю - тут можно смотреть сколько страниц попало в выдачу а сколько всего-лишь проиндексирован о Улыбается

Пример анализа моего сайта: http://www.cy-pr.com/analysis/www.dotfun.ru
Цитировать
 
 
0 #12 майкл 2010-08-26 15:26 Искал в нете долго и не нашел, спрашиваю у Вас: сайту 3 недели, в индексе гугла страниц нет, все как положено скормил (карту, роботс) и гугл хорошо принял при этом пишет "загружено 172 стр, в индексе 0",при запросе www.site.ru я на 70 месте и это не главная страница , а www.site.ru/index.php?option=com_jcomments&tmpl=component (пустая страница с добавлением комментария), вот решил закрыть в роботс, как правильно сделать? Цитировать
 
 
+3 #11 Onemonk 2010-07-08 15:13 бороздя инет почти полдня нашел вот - можно даже скачать готовый: http://rabotaisam.ru/robotstxt/what-robotstxt.html Цитировать
 
 
+1 #10 Onemonk 2010-07-08 10:41 Неправильный!!! !!!
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Цитировать
 
 
-3 #9 globalZag 2010-05-06 03:07 Всех с праздничком с прошедшим и наступающим!!! как думаете теракты будут или нет а то чтото стрёмно быть в толпе на параде ((( Цитировать
 
 
+1 #8 Анатолий_Ivanov 2010-04-02 17:57 Посмотрел на http://www.dotfun.ru/robots.txt

Зачем написали для каждого робота адреса карт сайта?
Достаточно их указать для User-agent:*,
Яндекс и Google берет их оттуда. Проверьте robots.txt вебмастере яндекса и увидите что он их читает 3 раза. Так же и с гуглом
Цитировать
 
 
0 #7 Ant 2010-03-22 16:53 Для тех, у кого xmap в яшу не влазит. создаем правило для xml в htaccess и делаем переадресацию в sh404sef а потом ее и пихаем яше. если у вас виртумарт, то сначала отключаем подгрузку товаров в карту хмл потом кормим яшу а потом включаем Цитировать
 
 
-2 #6 Ant 2010-03-20 03:15 как насчет такой?
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=3&view=xml&no_html=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?
Disallow: /*option=
Disallow: /*lang=
Disallow: /*month=
Disallow: /*page=
Disallow: /*month=
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*cat_id=
Disallow: /*Pechat.html


Host: MYSITE.ru
Sitemap: http://MYSITE.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Цитировать
 

Добавить комментарий


Защитный код
Обновить