Robots.txt под joomla – давайте разберемся вместе! (или проблема выдачи дубликатов страниц в индексе поиска) |
|
|
| SEO Joomla поисковая оптимизация сайта |
| Автор: Rudman |
| 26.03.2009 13:26 |
Настройка Robots.txt для Joomla 1.5В общем, давайте попробуем разобраться с этим хитрым файликом (robots.txt), который просто обязан храниться в корне у каждого сайта, который претендует на нормальную поисковую индексацию.
Отталкиваться от того, что система SEF у нас настроена и работает «как надо» (в данном случае sh404sef) и структура Вашего сайта Вам ясна и понятна. Ни для кого не секрет что многие компоненты оставляют нам «хвосты» в виде значений переменных при формировании вида страниц. Когда компонент корректно обрабатывается SEF компонентом достаточно просто отрубить индексацию «папки» компонентов.Например у меня был компонент календарь, который добавлял кучу неинформативных станиц с одинаковым контентом, который потом в итоге засоряет поискового робота да и страницы эти из выдачи выпадут по причине одинаковости. Вида эти страницы были: www.site.ru/component/option,co...12/modid,32/month,03/year,2009/ Сами понимаете такие ссылки в выдаче ни к чему – поэтому индексацию их нужно заблокировать. Здесь все более менее понятно. К слову советую заблокировать и файл *index.php к индексации. Гораздо сложнее разобраться со страницами, в которых указаны параметры, некоторые компоненты создают такие страниц, параметры не обрабатываются SEF компонентом, поэтому их необходимо (если нужно) запрещать вручную. Например для вывода страниц рекламы adsence я использую плагин MultiAds, который позволяет легко встраивать рекламные модули непосредственно в страницы контента в разные позиции (разберем его в другой раз, он очень простой). В страницах он создает свои страницы для идентификации своих блоков добавляя параметр «&frontPageAdsCount=x». Естественно эти страницы являются «дублирующими» и ни одной поисковой системе будь то Yandex или Google не понравится куча страниц с одинаковым содержанием, которое система после анализа сама же начнет «выбрасывать» из индекса и из выдачи, да и нам такие страницы в выдачи не нужны! Можно просто блокировать выдачу посредством записи: Disallow: /*frontPageAdsCount= Гугл отлично справляется с запретом на индексацию, но такой способ не совсем удобен, более логично применять синтаксис, который позволяет отбрасывать параметры Clean-param: параметр& путь/ Синтаксис стандартный, однако мне так и не удалось понять «понимает» ли Google этот синтаксис, а Яндекс при попытке протестировать страницы в настройках панели вебмастера в разделе Robots.txt выдает ошибку синтаксиса, о чем я писал в суппорт Ошибку мне выдавало следующую: "Некорректный формат директивы Clean-param" Вот ответ:
Проблема получается из за того, что SEF не перехватывает параметры, они идут при формировании ссылки после знака «?». Особенно много в выдачи у меня оказалось ссылок вида: www.site.ru/?lang=ru&Itemid=5&view=&limit=5&month=10 А ведь, на таких страницах все будет расположено «не совсем так, как нужно», да и формат выдачи может быть совсем не такой как нужно для SEO целей. Другая проблема появляется тогда, когда вы не используете SEF обработчик для некоторых компонентов, например, я, не использую его для выдачи Google map или для компонента закачки и скачивания файлов (проблема с кэшем). Тут «лишние» параметры расползаются, как тараканы по поисковой индексации … Привожу кусок своего robots.txt (актуальную версию вы можете найти на сайте www.dotfun.ru/robots.txt User-agent: * В общем, успехов Вам в нелегком SEO деле, всегда Ваш, Rudman PS Ссылки удобно покупать в Seopult это не реклама! За 300 рублей в месяц ничего не делая я сделал ТИц=40 у этого сайта за 2 месяца! |
Комментарии
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает! Цитировать
Зачем написали для каждого робота адреса карт сайта?
Достаточно их указать для User-agent:*,
Яндекс и Google берет их оттуда. Проверьте robots.txt вебмастере яндекса и увидите что он их читает 3 раза. Так же и с гуглом Цитировать
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=3&view=xml&no_html=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?
Disallow: /*option=
Disallow: /*lang=
Disallow: /*month=
Disallow: /*page=
Disallow: /*month=
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*cat_id=
Disallow: /*Pechat.html
Host: MYSITE.ru
Sitemap: http://MYSITE.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1 Цитировать
Ошибок: 2 |
URL
Найдено по внешней ссылке
14.06.2009 14.06.2009
/index.php
Что при этом делать?
Я напсал так:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/
Disallow: /forum/
Allow: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Sitemap: http://my_site/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Allow: /index.php
Allow: /index.html
Сработает для ЯНДЕКСА? Цитировать
вот что отмечу из интеерсного
Disallow: /index2.php?option=com_content
действительно подумываю так и добавить
по замечаниям:
Disallow: /? - вот эта строка! по моему елси вы пишите так то первые три автоматически итак попадают по эту! - соответственно у вас ВСЕ параметры запрещены … считаю, что не всегда ВСЕ параметры нужно запрещать + если вы уверены, что у вас правильно SEF настроен Цитировать
User-agent: *
Disallow: /?option=
Disallow: /?replyto=
Disallow: /?mosmsg=
Disallow: /?
Disallow: /profil/
Disallow: /index2.php?option=com_content
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /component/option,com_news feeds/
Disallow: /component/option,com_wrap per/
Что скажете? Может дополним с вашим? Цитировать
менять что-либо "приложив голову" надо только в этом файле www.твой сайт.ru/robots.txt любые вопросы спрашивай на все отвечу !
RSS лента комментариев этой записи.