Zoofish - aquaforum

Время
Категории раздела
Выставки. Конкурсы. Ярмарки [68]
Новости аквариумистики [202]
Литература [42]
Рецепты, народная медицина. [7]
Другое [3]
Не забудьте
Мини-чат
Случайное фото
<b>Название: </b>Хорёк Найк, <b>Добавил:<b> Рута<br>Размеры: 1500x1000, 158.0 Кб


Рыбный садок дня
Наш опрос
КАК ВЫ НАС НАШЛИ ?


Всего проголосовало человек: 66
Отправить СМС
LMT Beeline Мегафон
Разное
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Поиск
    Время жизни сайта
    Главная » Статьи » Библиотека » Другое

    Как поисковые боты индексят сайты
    Все это вы уже слышали, видели, читали. Я просто в кучку собью.

    Итак.
    В ответ на запрос пользователя бот выдает результат поиска. Ищет он в собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их понимает. У каждого бота это понимание свое, но общие черты прослеживаются.

    Индекс образуется двумя путями.

    Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На остальные боты можно не тратить время. Это мое мнение.



    Второй путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще всего они принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей все в порядке (посетители иногда появляются, спама нет и др.) - они его индексят. То есть заносят информацию о нем в свой индекс (базу данных).
    Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В Яндексе… ну, через месяц-два.

    Кроме этого, боты следят за состоянием своего индекса. То есть за его соответствием реальному положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого делать.
    Самый скоростной по реиндексированию - Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если ресурс популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода!
    У меня был сайт, который переехал. Так Апорт по запросу старый адрес еще несколько месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту все равно!

    Дальше.
    Результат поиска по запросу пользователя чаще всего выдается по релевантности. Чем выше релевантность, тем выше позиция страницы в результате работы поисковика. Страница с наиболее высокой (по мнению бота) релевантностью отображается первой. Релевантность - это степень соответствия содержимого индекса бота запросу пользователя.
    Например, пользователь вводит «анекдоты». Бот выдает страницы проиндексированных сайтов, где встречается это слово. Причем не просто встречается, а встречается в тех местах, которые бот индексит.
    Но об этом позже.
    Яндекс, например, чаще всего выдает только одну страницу с сайта и ссылки на то, что есть еще страницы с того же сервера. Замечали, наверное. Другие боты могут по несколько страниц с одного сервака на один запрос выдавать. Это не очень образованные боты, но их тоже юзают.

    Продолжим с примером про «анекдоты». Бот выдает результат поиска по релевантности. То есть, если на странице имеется 100 слов и 4 из них - «анекдоты» (в именительном падеже, множественном числе), то релевантность страницы по запросу «анекдоты» 0.04. Четыре процента. Соответственно, если слов будет 10, и 4 из них - «анекдоты», то релевантность будет 40 %. То есть в 10 раз выше.
    Это грубоватый пример, так как слова в заголовке (то что между <title></title>) и в тексте страницы имеют для бота разный вес, равно как слова в падеже и числе, указанном в запросе и имеющемся на странице. Но для понимания понятия «релевантность» вполне сойдет.

    Поясню про падежи и числа.
    Если запрос «анекдоТЫ», а на странице встречаются только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по этому запросу будет ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в любом случае страница все равно найдется по запросу «анекдоТЫ» (но в с конце списка ответа поисковика).

    Из сказанного следует, что страница должна содержать поменьше слов, и слова должны быть, в основном, ключевые.

    Куда же девать инфу, которая в 10-20 слов никак не поместится?
    Ответ - страницы с инфой и страницы для ботов - это «две большие разницы».

    Страницы с инфой- это те страницы, на которые попадаешь по ссылке со стартовой страницы. А стартовая страница (другие названия - индексная, заходная, doorway и др.) - это страница которая как раз и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта страница, созданная специально для бота. И больше ни для кого.

    Обычно, на стартовой странице размещают лого, иногда еще несколько слов - чтобы пользователь понял, куда попал, и кнопочку «Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта. То есть несколько входов.
    Если без текста на индексной странице, ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например. Правда, им-то чего о релевантности заботиться?

    Важно, чтобы бот по запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место сайта.
    По крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на каждой странице.
    Если бот начнет индексить, он надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота.

    Итак.
    Стартовая страница делается для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
    Страницы с инфой должны содержать ссылки друг на друга, нормальный информативный заголовок и приемлемые мета-теги.
    Все. Их цель - дать инфу и не препятствовать боту запихнуть их в свой индекс. Они не должны первыми появляться по запросу пользователя. Так как в данном случае это как раз те два зайца, за которыми никак не угнаться, да и не надо.

    Дальше.
    Понятное дело, что есть не одно, а несколько ключевых слов, по которым web-маз хочет, чтобы искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти страницы ничем не должны отличаться. Ну, может, title`ом. Отличаться должна служебная инфа, о которой речь пойдет ниже.

    Например, у меня есть сайт для фирмешки, продающей стартеры для иномарок. Я сделала с десяток-два индексных страниц для наиболее популярных моделей иномарок. Внешне страницы отличаются только тем, что на одной в заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в ботах отдельно.

    Итак.
    Что же индексит бот?
    У каждого бота свой характер, но в целом примерно так.
    Во-первых title. Это самая важная часть. Слова в title`е имеют самый большой вес. Большой вес имеют слова в alt`ах (подписях к картинкам), слова между <h1> </h1>, <h2> </h2> и т.д. в порядке убывания значимости, слова между <b> </b>.
    Кроме того, слова, расположенные ближе (выше) к title`у, имеют больший вес, чем слова расположенные ниже. То есть, чем выше слово, тем выше его вес при определении релевантности.
    Полнотекстовые боты (то есть практически все современные) индексят еще и сам текст. В основном, на предмет наличия в тексте слов, указанных в заголовке и метах. Но если текста нет или очень мало - соответственно.

    Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»?

    Пишем:

    <html>
    <title>Лучший варез</title>
    <title>&#160;Софт Варез Нелегальный софт</title>

    То есть пишем второй title.
    После второго title`a нужно поставить знак неразрывного пробела - &#160; или &nbsp;. Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее слово первого заголовка сольется с первым словом второго заголовка.
    Разумеется, ключевые слова (2-6) можно выдумать и другие.

    На той же странице пишем дальше:

    <meta name="keywords" content="Варез, софт, нелегальный софт">
    <meta http-equiv="keywords" content="Варез, софт, нелегальный софт">
    <meta name="description" content="Лучшие программы">
    <meta http-equiv="description" content="Лучшие программы">

    В keywords`ах должно быть не более 10-ти слов, необходимо использовать варианты (не более трех) наиболее частых падежей и чисел: (например: программы, программ, программа), чередуя их с другими словами (например: программы, софт, программ, варез, программа).

    В description - несколько слов (5-8 слов, не более 170 символов), емко характеризующих сайт. В Апорте и Рамблере это описание появится рядом с результатом поиска по запросу. В настоящее время при индексировании содержимое description на релевантность не влияет. По крайней мере, в рассмативаемых поисковиках.

    Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.

    Name и http-equiv должны полностью совпадать. Одни боты понимают name, другие - http-equiv.

    Дальше на той же странице:

    <meta name="robots" content="index,follow">
    # Роботам - индексировать страницу и идти дальше по ссылкам на ней.
    # Аналогично сработает: <meta name="robots" content="all">

    Дальше:

          <meta name="resource-type" content="document">
    #Если бот видит, что ресурс - это документ,
    # он приступает (должен) к его индексации.
         <meta name="document-state" content="dynamic">
    # Если тип документа - динамический - бот запомнит что сюда
    # нужно периодически возвращаться.
         <meta name="revisit-after" content="10 days">
    # Это пожелание боту, как часто реиндексировать документ.
    # Пожелание - не более. Бот может послушаться, а может и нет.
    # Если, например, он разок вернется через 10 дней и увидит,
    # что страница и впрямь изменилась, может и еще разок вернется
    # через 10 дней. А если написать revisit-after 1 day и не менять
    # страницу вообще - бот может обидеться и посчитать это попыткой
    # его спама. Он занесет такую страницу в черный индекс
    # (точнее, сначала - в "серый"). Это плохо.

    Дальше для Рамблера (только):

    <!--<h1>Варез, софт, нелегальный софт</h1>//-->

    То есть в тегах комментария в заголовке первого уровня пишем ключевые слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест как миленький.

    Потом, все картинки, что ни есть, должны содержать alt`ы с ключевыми словами.

    Можно даже в неприметном месте страницы однопиксельных прозрачных гифов запихать (не очень много - 3-4) и alt`ы к ним нужные прикрутить. Это считается спамом поисковика (как и два title`а, впрочем), но по опыту - они (боты) этого в упор не видят.

    Вообщем, «легальные» способы кончились дальше идут «нелегальные».

    Можно сделать для IE:

    <div style="visibility: hidden">
    <h1>Программы, варез, софт, программа</h1>
    </div>

    Для NN:

    <layer visibility="hide"> <h1>Программы, варез, софт, программа</h1> </layer>

    Это не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают.

    Проще:

    <font color="#цвет фона"><h1>Варез программа</h1></font>

    Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют - они сейчас умные пошли.

    Еще можно вот что сделать. Где-нибудь неприметненько запихиваем прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно, если сами ссылки по дизайну на страницу никак не поместить.

    Примерно так:

    <a href="первая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Варез, софт, нелегальный софт"></a>
    <a href="вторая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Софт, варез"></a>
    <a href="третья ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="варез, софт"></a>
    и т.д.

    Ну, и нужен специально обученный человек, который будет следить за эволюцией ботов, изменениями позиции страницы в поисковиках и предпринимать сответствующие действия. Не каждый день, но раз в недельку-две тестирование в поисковиках своим страницам нужно устраивать.

    И вот еще что! Если релевантность _слишком_ высока, Яндекс обижается и не выдает страницу по запросу. За остальными не замечала. Другие страницы того же сайта с меньшей релевантностью может выдавать («серый» список). Так что, если на странице только слова «варез варез варез» - это не выход. Релевантность должна быть не более 30 %. И одинаковые слова подряд лучше не повторять.

    А Батва меня навел на мысль, что можно делать по 2 страницы на одно ключевое слово. На одной странице релевантность по ключевому слову 10 % (для подозрительного Яндекса), на другой - порядка 30 % (для остальных).

    И вот когда все это извращение готово - 10-15 стартовых качественно написанных страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу индексишь одной пимпой в нескольких наиболее популярных поисковиках. При этом видишь ответы серверов, и, если не прошло - идешь индексить вручную.
    Об остальных поисковиках спокойно забываешь, толку от них… Работы больше.
    Описание к каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.

    Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это мое мнение.

    И последнее.
    В корень (только в корень) помещаешь файт robots.txt (именно так и никак иначе) со следующим содержимым:

    User-agent: *   # Первая строка.
      # Комментарии, понятное дело, убрать
      # Строка говорит, что любой бот может индексить ресурс
      # Между первой и последующими -
      # не должно быть переводов строк
    Disallow: /cgi-bin/  #Не индексировать то, что в каталоге cgi-bin
    Disallow: /images/  #Не индексировать то, что в каталоге images
    Disallow: /scripts/   #Не индексировать то, что в каталоге scripts

    # И далее по смыслу. В конце каждого имени каталога - слеш.
    # Нече там ботам ползать. Нагрузку на сервак повышать. :)



    Источник: http://www.ru-board.com/new/article.php?sid=42
    Категория: Другое | Добавил: Рута (11.01.2011)
    Просмотров: 783
    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Мини профиль


    Гость, мы рады вас видеть. Пожалуйста зарегистрируйтесь или авторизуйтесь!



    Заказать рекламу

    Здесь Вы можете заказать рекламу на нашем сайте!

    БЛОГ
    Ждём Ваши статьи в БЛОГе. Расскажите о своих наблюдениях и опыте в аквариумистике!

    Наша кнопка
    Мы будем вам признательны, если вы разместите нашу кнопку у себя на сайте. Если вы хотите обменяться с нами баннерами, пишите в ,Гостевую книгу:



    Последние темы

    Ответов: 138
    Форум: Дневник моего аквариума

    Ответов: 7
    Форум: Акватеррариум



    Последние статьи
    Рута
    Добавлено: 27.02.2015
    Новинки от JBL

    Комментарии: 0

    Рута
    Добавлено: 05.08.2014
    Новая книга по растениям от OFI

    Комментарии: 0

    Рута
    Добавлено: 15.07.2014
    Всеукраинская выставка-продажа аквариумных креветок .

    Комментарии: 0

    Последние файлы
    Рута
    Добавлено: 31.03.2016
    Боция хочет спать

    Комментарии: 0

    Рута
    Добавлено: 30.03.2016
    Палюдариум

    Комментарии: 0

    Рута
    Добавлено: 30.03.2016
    Уход за кварцевым песком в аквариуме

    Комментарии: 0

    Статистика
    Онлайн всего: 55
    Гостей: 55
    Пользователей: 0
    Вся статистика

    Зарег. на сайте

    Всего:

    Новых за месяц: 0

    Новых за неделю: 0

    Новых вчера: 0

    Новыйх сегодня: 0

    Из них

    Администраторов: 2

    Модераторов: 0

    Проверенных: 146

    Постоянных: 41

    Забаненных: 1

    Пользователи: 6166

    Из них

    Парней: 6267

    Девушек: 88
    Новые пользователи
    DerosorkPrips
    ariadog
    kirikibus23
    Lavillevals
    Drozfub
    Администрация
    Администраторы
    Артём
    Рута
    Модераторы
    ???
    Вверх
    Статистика Форума
    Последние обновленные темы Самые популярные темы Самые активные Новые участники
  • Дискусы. 840 литров (131)
  • моё болотце (138)
  • Запуск палюдариума (7)
  • Диски из Клайпеды (171)
  • Конкурс дизайна биотопных аквариумов JBL 2014 (13)
  • Конкурс аквариумного дизайна DENNERLE Scaper's Tank 2014 (13)
  • танцуем Тангу (507)
  • Встреча аквариумистов 26.07.2014 г. (0)
  • Как я ухаживаю за кварцевым песком в аквариуме (0)
  • цихлиды Латвии на Фейсбук (2)
  • танцуем Тангу (507)
  • Мои 320л. Дискусы (321)
  • ЗОО "Фауна" г. Елгава т. 63082653 Академияс 1, (266)
  • 450l Танганьика (Фронтозы) (262)
  • Мои рыбные домики (216)
  • Мои 250 литров малавийника. (211)
  • речи ручья (195)
  • посмеемся? (187)
  • Диски из Клайпеды (171)
  • Кто-кто в теремочке живет... (165)
  • Рута
  • Loola
  • ручей
  • olenka
  • Prny
  • eliwka777
  • Eva
  • Elena64
  • Seytan4ik
  • sanil
  • DerosorkPrips10.10.2024
    ariadog20.05.2024
    kirikibus2315.09.2023
    Lavillevals26.07.2023
    Drozfub29.05.2023
    petrzaychev01.02.2023
    Vlfslvalita19.01.2023
    Uncoke11.01.2023
    Skyshoevals05.01.2023
    mir2023lwelm02.01.2023


    zoofish © 2010-2016