DOWNLOAD LAST VERSION

XKoVaToR - 1.3

Главное

  • Перед началом парсинга программой - проверь все запросы руками в источнике. Не надо предъявлять претезий что "не парсит" если ручная проверка не дала результатов. Ознакомься с переменными в строке запроса, попробуй понять что они значат и на что влияют. Не понял - не надо применять к ним вращение или менять значения - будет только хуже!. Я устал каждый день делать эти проверки сам - вместо вас. Я один, пожалейте автора :)

  • Не знаешь что это за галочка или регулятор - не трожь. Для парсинга без извращений в программе все выставлено по умолчанию.

  • Не передавай свой логин и пароль друзьям / родственникам / партнерам. Систему не обмануть и как талько появится 4-й IP за 24 часа использования программы - автоматом будет бан на 72 часа. НЕИЗБЕЖНО. Не стучите ко мне с вопросами что "это не мои IP" - даже если они и не ваши - они от вашего логина. Поменять пароль - без проблем в любое время.
  • Общие вопросы

    Каков максимальный размер базы кейвордов и урлов у XKoVaToR?

    2м кеев и 2м урлов - гарантированный предел вместимости программы (на практике на 512 памяти я 1 раз вытравливал 4м урлов, и комп повис). Дубликаты исключены алгоритмом.

    Ожидается ли версия XKoVaToR под Unix?

    Нет, не ожидается. Программа писалась специально под Windows и переделываться под Unix не будет. Программа использует множество Windows API функций (winsock, mshtml например) что и дает ей большую часть ее преимуществ над аналогами. Отказываться от них - потерять многие плюсы. Зачем? Вы не можете себе позволить вин дедик? Тогда начинайте с бесплатных программ - тренируйтесь на них.

    Какой Интернет канал необходимо иметь для работы программы?

    Скорость вашего подключения не является критерием для программы - правило одно: чем медленнее Интернет, тем больше времени вы потратите на вытравку. XKoVaToR поддерживает gzip сжатие, что уменьшает объем трафика по сравнению с аналогичными программами в 5-10 раз. Естественно, gzip должен поддерживать и сервер, который вы парсите. Например, Google, Live, Yahoo и Yandex поддерживают gzip, а Overture - нет. Те источники, которые поддерживают gzip можно прекрасно парсить на модеме 56к в 5 потоков. Однако рекомендуется иметь под парсинг свой выделенный сервер.

    Можно ли запускать 2 версии XKoVaToR на двух разных компьютерах одновременно?

    Да, можно. Но помните что в целях защиты программы запрещен запуск с 3-х разных IP в течение 24 часов. За нарушение - пенальти на 72 часа для вашего логина.

    Можно ли запускать 2 версии XKoVaToR на одном компьютере одновременно?

    Да, можно. Это имеет смысл только в случае выполнения нескольких разных задач одновременно (классов задач). Например, не имеет смысл одновременно парсить google.com в одном экземпляре и live.com в другом, так как автосохранение изменяемого списка в одном экземпляре будет перезаписывать тот же самый список в другом. А парсить google.com и проверять базу урлов одновременно - актуально.

    Как сохранить данные из списка в текстовом формате?

    1. Через буфет обмена. Делается путем нажития "Ctrl+A" (пометить все элементы списка) + "Ctrl+C" (копирование всех элементов в буфер). После - вставляйте куда хотите - хоть notepad, хоть Word, хоть Excel.

    2. Экспорт в текстовый файл. Выберите пункт "Save As" в меню списка и сохраните в файл под любым именем выбрав тип "*.txt" в выпадающем меню типов файлов.

    Куда заносить прокси и какой тип прокси серверов поддерживается программой?

    Прокси сервера не надо заносить в программу напрямую, необходимо указать путь к файлу с прокси или URL, по которому эти прокси находятся. Прокси собираются с любых html документов, независимо от их формата и защиты от личинга.

    Программа может собирать прокси с неограниченного количества источников. Можно, например, указать 2 пути к локальным файлам с прокси плюс 5 урлов откуда их собирать. Обновление прокси серверов происходит периодически в соответствии со значением параметра "Reload ProxyList Every" (закладка Options). В данный момент поддерживаются только HTTP прокси, возможность работы через соксы будет добавлена при первом же запросе.


    подробнее:

    Формат прокси определяется регулярным выражением: ([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})[\+\-\:\s]+([0-9]{1,5}). То есть в искомых файлах (http страницах) прокси может быть в виде:

    12.12.12.12:3128
    12.12.12.12+3128
    12.12.12.12-3128
    12.12.12.12 3128

    С любым количеством пробельных символов между IP адресом и портом. Дубликаты прокси отсеиваются автоматически, об этом за вас подумает программа.

    Какие списки прокси "скармливать" программе - все подряд или предварительно проверенные другими инструментами? Проверяются ли прокси в процессе работы программы?

    Лучше, чтобы подгружаемые списки были уже предварительно проверены. Это увеличит скорость работы парсера непосредственно после старта. Однако при длительной работе - это не важно. Проксичекера как такового в программе нет, да это и не нужно. Проверка осуществляется загрузкой страниц источника парсинга (серп гугла или выдача овертюры, например), и только при найденной подстроке в загруженных данных прокси считается хорошим. По сути этот алгоритм ничем не отличается от проксичекера.

    Работу с прокси в XKoVaToR можно назвать "умной", и вот почему:

    Сначала все загруженные прокси (из локального файла или с http, не важно) - заносятся в список unknown. В процессе работы, при первом же удачном коннекте через прокси он попадает в список Good. Если не удалось соединиться через прокси - количество его ошибок увеличивается на 1, если соединении было удачным - количество ошибок обнуляется. Как только количество ошибок превышает указанное в настройках значение ("Max Proxy Errors" в закладке "Options") - прокси попадает в список Bad и больше никогда в течении жизни (с момента запуска) программы не используются. Если прокси из списка Good не сработал, у него также повышается количество ошибок на 1 и как оно больше чем "Max Proxy Errors", прокси переносится ОБРАТНО в список Unknown и количество его ошибок обнуляется. То есть чтобы хорошему прокси (который попал в список Good) попасть в список Bad - ему надо ПОДРЯД совершить "Max Proxy Errors" * 2 ошибок ("Max Proxy Errors" для возврата в Unknown + "Max Proxy Errors" для переноса в Bad). За счет такой реализации работата с прокси ЧЕРЕЗ НЕКОТОРОЕ ВРЕМЯ после старта начинается только по хорошим (все плохие естественным образом отсеются) что увеличивает скорость парсинга во много раз.

    Текущее состояние списков Good, Bad и Unknown отображено в окне статистики (закладка "Tasks / Threads List"). Легко определить качество ваших прокси, сравнив эти 3 списка.

    Кроме того, при парсинге поисковых систем, у каждого поисковика есть собственный список забаненных прокси (актуально только для поисковиков которые банят за парсинг). А следовательно отсутствуют повторные попытки парсинга через забаненные прокси - скорость парсинга еще выше.

    Необходимо ли сохранять накопленные списки урлов и кейвордов?

    По умолчанию программа работает с файлами коллекций default.xurl (коллекция линков) и default.xkv (коллекция кейвордов), находящимися в папке "data/". После запуска программы обе коллекции загружаются из этих файлов, при закрытии - соответственно сохраняются в них же. При парсинге новые значения будут добавлены в уже существующие коллекции, за исключением дубликатов. Если вы не хотите смешивать базы для разных запросов - сохраните существующие списки в отдельные файлы с помощью инструмента "Export To" (Ctrl+Shift+S при фокусе на любом из списков или клик правой кнопкой мыши) и очистите соответствующий список перед стартом. Загрузить сохраненные базы можно с помощью функции "Open" (Ctrl+O при фокусе на любом из списков или клик правой кнопкой мыши). Смешать сразу несколько баз в одну можно с помощью инструмента "Import" (Ctrl+I при фокусе на любом из списков или клик правой кнопкой мыши). Импорт возможен из нескольких файлов сразу - удерживайте кнопку Ctrl в окне выбора файлов для множественного выбора.

    Что такое Countries Variables в закладке Options?

    2 списка значений Countries Names и Countries Ranges необходимы только для работы с модулем URLs Checks. Они нужны для определения страны хоста по его IP (Countries Ranges) и полного имени страны по короткому имени (Countries Names). Если оба списка у вас пустые вы просто не сможете определить страну в которой находится хост. На функциональность других модулей Countries Variables не влияет.

    Хранятся Countries Variables в файле "data/vars.sys". Если по каким-то причинам вы потеряли этот файл - последнюю версию всегда можно скачать с нашего сайта.

    Когда необходимо использовать прокси?

    Только в тех случаях, когда вы собираете данные из источников, которые пытаются от этого защититься. Например Google этого очень не любит, напрямую его парсить можно, но не долго. Не надо использовать прокси при парсинге овертюры или других поисковиков - этого не требуется. Но не забывайте, что скорость закачки без прокси в десятки раз выше, чем с ними. Не забывайте правильно выбирать количество рабочих потоков, чтобы ваш компьютер смог выполнять необходимые действия без критической нагрузки. Я рекомендую 5 потоков на быстром Интернете без прокси и максимум 30 при работе через них. Кроме закачки XKoVaToR выполняет очень большой объем ресурсоемкой работы и неправильный расчет нагрузки может привести к нестабильной работе программы.

    Что необходимо сделать, чтобы все соединения шли через прокси?

    Включить опцию "Use Proxies" на панели запуска парсинга (справа от кнопки "START").

    Что означает значение "directly" в колонке "proxy" списка потоков?

    Это означает, что поток загружает данные напрямую (direct connection), без прокси.

    Как правильно рассчитать количество рабочих потоков и параметры соединения?

    При парсинге поисковых систем необходимо учиывать, что XKoVaToR поодерживает GZip сжатие данных, которое уменьшает объем передаваемых данных от 3-х до 10-ти раз. Соответственно на столько же увеличивается и скорость загрузки html страниц. Однако объем работы по непосредственному парсингу загруженного содержимого остается прежним. Другими словами - 10 потоков в XKoVaToR эквивалентно 30-100 потокам в любом другом парсере.

    Не стоит устанавливать большое количество потоков, зачастую это не только не увеличивает скорость выполнения задачи - но и замедляет ее за счет постоянного ожидания освобождения ресурсов для продожления обработки. Программа должна работать в спокойном режиме без захвата 100% ресурсов системы (установите желаемую нагрузку на процессор в опциях). Кроме того, по умолчанию каждая загруженная страница будет содержать максимально возможное количество элементов для сбора (например - 100 линков в серпе) что оказывает серьезную нагрузку при сборе самих элементов. Я рекомендую следующее количество потоков при работе на мощном компьютере (3MHz, 1Gb RAM):

    • парсинг поисковиков без прокси - Max Threads : 5; Connection Tries: 5; Connection Timeout: 30;
    • парсинг поисковиков с прокси - Max Threads : 20; Connection Tries: 30; Connection Timeout: 45;
    • парсинг кейвордов без прокси - Max Threads : 30; Connection Tries: 10; Connection Timeout: 45;
    • парсинг кейвордов с прокси - Max Threads : 50; Connection Tries: 30; Connection Timeout: 45;
    • проверка базы урлов (используя Collector) - Max Threads : 20; Connection Tries: 3; Connection Timeout: 10;
    • проверка базы урлов (только Google Domain Index Count, Determine Host IP, Determine Host Country, Ping Host, Google Domain PR, Google Page PR) - Max Threads : 100; Connection Tries: 3; Connection Timeout: 10;

    Какие еще "полезности" есть у программы?

    • При импорте новых значений в списки кейвордов или урлов можно выбирать несколько файлов для импорта одновременно удерживая клавишу Ctrl.
    • Клик на иконку в трее (удерживая правую кнопку мыши) - отчет о состоянии программы.
    • 2 клика на списке кейвордов - открыть новую базу (аналог Ctrl+O)
    • 2 клика на списке урлов - открытие адреса в вашем браузере по умолчанию.

    Почему выделенные кейворды / урлы в списке не копируются в буфер по нажатию Ctrl+C?

    Копированию в буфер подлежат не веделенные, а помеченные (отмеченные галочкой) элементы. Для копирования всего списка необходимо сначала отметить все элементы (Ctrl+A) и выбрать пункт меню Copy Checked (Ctrl+C). Внимательно читайте подписи в меню - опереции с подписью checked будут выполняться над помеченными элементами, а selected - над выделенными.

    Почему не работают горячие клавиши в меню?

    Для того чтобы работали горячие клавиши, необходимо иметь элемент с меню в фокусе (стандартное поведение меню в Windows приложениях). Другими словами - кликните мышкой в поле, отображающее элементы.

    Парсеры поисковиков

    Где искать результаты вытравки?

    В списке урлов, закладка "URLs Collection". Это не просто текстовый список, каким он является у всех программ - аналогов. Это индексированная коллекция, обладающая очень большой вместимостью (до миллиона урлов в 1 списке) и имеющая большой инструментарий для своей обработки. Моментальные сортировки, выбор из списка значение по подстроке, экспорт в текстовый формат, копирование/вставка через буфер и еще много полезных инструментов. Хранить свои базы лучше в формате XKoVaToR (xurl), разбив их на группы по теме и сохранив в разные файлы с осмысленными названиями.

    Как сделать автоматическое подмешивание к каждому моему запросу доменных зон?

    Включить опцию "Add Domain Zones" на панели парсинга поисковых систем.

    Какие доменные зоны подмешиваются программой при включенной опции "Add Domain Zones"?

    В XKoVaToR встроены 69 доменных зон, имеющих более миллиона страниц в индексе гугла на начало 2007 года. Подмешивание менее развитых зон замедляет парсинг и не дает прироста результатов.

    Как использовать ротацию переменных "Rotate Variable"?

    Практика показывает, что количество результатов при вытравке с разными значениями переменных возрастает (например собрать линки из выдачи с адалт фильтром + выдачи без фильтра). Наибольший прирост наблюдается при переборе переменных контролирующих язык сайтов в выдаче. Например у google.com это переменная "lr", у live.com "SRCHHPGUSR", у yandex.ru "lang" и т.д. Чтобы парсить поочередно выдачу со всеми возможными значениями выбранной в поле "Variables" переменной - отметьте опцию "Rotate Variable" на панели парсинга поисковиков. Для каждого поисковика это значение выбирается отдельно. Надеюсь всем понятно, что имеет смысл вращения только тех переменных, количество значений которых больше 1.

    Как сделать автоматическое подмешивание к каждому моему запросу слов из словаря?

    1. Указать программе путь к файлу со словарем - раздел "Dictionary Location" в закладке "Options".
    2. Включить опцию "Add Words" на панели парсинга поисковых систем.

    В каком формате должен быть файл словаря?

    Каждая строка - одно слово. Это наиболее правильное решение. Объем файла неограничен, однако помните, что каждая строка в словаре - это полноценный проход парсера по всем страницам в серпе каждого поисковика. В среднем, при соединении через прокси - на 1 запрос уходит около 5 секунд (при хороших прокси и хорошем канале сервера). То есть если в словаре будет 100.000 слов, по каждому из запросов будет 10 серпов и парситься будет только 1 поисковик - необходимо будет осуществить загрузку 1.000.000 html страниц. Соответственно при работе в 30 потоков понадобиться (1.000.000 / 30) * 5 = ~170.000 секунд, или около 48 часов на обработку только одного запроса! Обязательно расчитывайте приблизительное время парсинга перед стартом иначе можете ждать окончания вытравки месяцами. И это с учетом того, что скорость парсинга XKoVaToR реально в 5-10 раз выше любого парсера на рынке подобного софта.

    При включенной опции "Save Best Variators" программа будет сохранять лучшие слова-вариаторы в файл parsing_results/_best_variators.txt. Начните с использования любого словаря и после нескольких полных проходов по разным запросам используйте только слова, сохраненные в этот файл (предварительно почистив от дубликатов с помощью инструмента Filter).

    Как вытравить бэки из live.com? (msn.com)

    На момент написания этого хелпа (02.05.07) live.com игнорировал модификаторы inurl: и link:, однако был способ вытравить бэклинки. Для этого необходимо частично закодировать модификатор link:. Например:

    запрос link:http://www.google.com
    должен выглядеть %6Cink%3Ahttp://www.google.com (закодированы символы "l" и ":").

    Обязательно выставить параметр кодировки запроса ("UTF-8 Encoding" в нижней части панели вытравки поисковых истем) в значение "No Encoding", иначе запрос будет поврежден кодировкой символа "%".

    Как долго будет существовать дыра в обороне мелкософта неизвестно, пользуйте пока работает.

    Почему при парсинге google.com premium часто виден редирект на страницу "http://www.google.com/?sorry..." ?

    После прохода до 20 серпа выдачи парсера google.com premium и попытки перехода на 21 серп, google всегда возвращает редирект на страницу с капчей и извинениями. Это нормальное поведение этого парсера, и ни одной ссылки не теряется. Это не признак бана и не мешает дальнейшему парсингу без прокси. Такие редиректы появляются не чаще каждой 20-й загрузки.

    Что означает текст "add more proxies to continue" в колонке статуса рабочего потока?

    Если парсинг идет через прокси (опция "Use Proxies" включена), то каждый рабочий поток будет ждать до тех пор, пока у него не появится возможность найти хотя бы 1 рабочий прокси. Например если программа собрала из указанных вами источников 500 прокси и 300 из них плохие а остальные 200 забанены - поток остановится и будет ждать новых прокси. Можете быть спокойны, если закончатся прокси - XKoVaToR подождет новых сколько требуется без каких-либо негативных последствий.

    Парсеры кейвордов

    Где искать результаты вытравки?

    В списке кейвордов, закладка "Keywords Collection". Это не просто текстовый список, каким он является у всех программ - аналогов. Это индексированная коллекция, обладающая очень большой вместимостью (до 3-х миллионов кейвордов в 1 списке) и имеющая большой инструментарий для своей обработки. Моментальные сортировки, выбор из списка значение по подстроке, экспорт в текстовый формат, копирование/вставка через буфер и еще много полезных инструментов. Хранить свои коллекции кейвордов лучше в формате XKoVaToR (xkv), разбив их на группы по теме и сохранив в разные файлы с осмысленными названиями.

    Как указать глубину вытравки кейворда?

    Большинство программ, вытравливающих кейворды имеют 2 обязательных параметра настройки - "сохранять в список если запросов по кею больше чем" и "повторно делать запрос, если запросов по кею больше чем". Особенности алгоритма парсинга кейвордов в XKoVaToR сделали наличие этих параметров ненужными. Парсится все на максимальную глубину, вытаскивается максимум возможного. Скорость вытравки настолько велика, что вопросы "но это же замедлит работу" - не актуальны. После парсинга отсортируйте список по количеству поисков и удалите из него те, количество запросов которых вас не устраивает.

    А может XKoVaToR парсить итальянскую овертюру?

    Парсер овертюры в XKoVaToR может собирать кейворды из следующих региональных баз:

    • us - United States (lang=en_US)
    • au - Australia (lang=en_AU)
    • at - Austria (lang=de_AT)
    • br - Brazil (lang=pt_BR)
    • ca - Canada (lang=fr_CA)
    • dk - Denmark (lang=da_DK)
    • fi - Finland (lang=fi_FI)
    • fr - France (lang=fr_FR)
    • de - Germany (lang=de_DE)
    • hk - Hong Kong (lang=zh_HK)
    • it - Italy (lang=it_IT)
    • nl - Netherlands (lang=nl_NL)
    • no - Norway (lang=no_NO)
    • es - Spain (lang=es_ES)
    • se - Sweden (lang=sv_SE)
    • ch - Switzerland (lang=de_CH)
    • tw - Taiwan (lang=zh_TW)
    • uk - United Kindom (lang=en_GB)

    Для выбора региона необходимо перед началом парсинга верно установить ПАРНЫЕ значения переменных "mkt" и "lang" в соответствии с приведенным выше списком (выпадающие меню Variables на панели "Keywords Parsing"). Например, для вытравки испанских кеев, необходимо установить "mkt=es" и "lang=es_ES".

    Какие данные отображаются в колонках "Average PR", "Min Bid", "Max Bid"?

    Пока это только заготовки для будущего модуля проверки кейвордов. На данный момент никакой пользы они не несут. Программа запоминает кроме своего расположения на экране (размер, позиция, развернутый вид) размер всех колонок и спиннеров во всех листах отображения. Чтобы пустые колонки вас не раздражали - сдвиньте их вплотную налево (ширина = 0) и перезапустите программу.

    Модуль проверки списка URL (чек ваших баз)

    Может ли программа определять Google PR для каждого URL в моем списке?

    Да, может. Более того, есть возможность проверки PR не только самого урла, но и для корневого домена этого URL. Для некоторых задач это необходимо. Скорость проверки при 100 потоках составляем около 1000 урлов в минуту.

    Filter + Mixer / URLs Parsing Results (НЕ ДЛЯ НЬЮБОВ)

    Для чего нужен Filter?

    Изначально этот инструмент был разработан для обработки любых текстовых строк. Сейчас фильтр имеет универсальный набор параметров, который позволяет осуществлять сложнейшие манипуляции с огромным количеством текста. Наиболее полезным этот инструмент будет для тех, кто знаком с регулярными выражениями, однако можно работать и с простыми подстроками (не забудь про параметр "Do You Know Regular Expressions" в настройках).

    Фильтр содержит:

    1. Поле "New Values" - туда вносим исходный текст.
    2. Поле "Results" - туда помещаются результаты обработки/фильтрации.
    3. Поле "Add If Contain" (добавлять, если содержит). Сюда вносим подстроки (шаблоны) которые ДОЛЖНА СОДЕРЖАТЬ в себе каждая строка из "New Values" чтобы попасть в "Results". Не содержит - останется в "New Values".
    4. Поле "Skip If Contain" (добавлять, если НЕ содержит). Сюда вносим подстроки (шаблоны) которые ДОЛЖНА НЕ СОДЕРЖАТЬ в себе каждая строка из "New Values" чтобы попасть в "Results".Содержит - останется в "New Values".
    5. 2 поля "Replacements" - первое - "ЧТО" заменять, и второе - "НА ЧТО" заменять. Первая строка в поле "ЧТО" соответствует первой строке в поле "НА ЧТО" и т.д.

    Фильтры "Add If Contain" и "Skip If Contain" содержат дополнительные модификаторы условий "OR" и "AND". Условие "OR" означает, что условие выполняется при любом из совпадений, "AND" - условие выполняется только при совпадении всех подстрок (шаблонов).

    Фильтры "Add If Contain", "Skip If Contain" и "Replacements" работают совместно, выполняясь последовательно. Комбинациями их значений можно выполнять сложнейшие строковые манипуляции. Каждое из полей поддерживает синтаксис регулярных выражений (если опция "Do You Know Regular Expressions" установлена в "Yes"), кроме того "Replacements" поддерживает "Substitute" - использование найденных групп символов в качестве подстановок в результате ($1, $2 и т.п.). Также, если вы работаете с регулярными выражениями, программа подскажет вам, если синтаксис шаблона ошибочен.

    Примеры использования в режиме подстрок (опция "Do You Know Regular Expressions" установлена в "No"):

    Перед каждым примером считаем, что все поля в "Add If Contain", "Skip If Contain" и "Replacements" ПУСТЫЕ. На входе ("New Values") имеем 5 строк:

    http://www.guestbook1.com
    http://www.guestbook2.com/guest.html
    http://www.guestbook3.com?param1=val1&param2=val2
    http://www.guestbook4.de?PHPSESSID=dk28akcfmrey7d832dfciv
    http://www.guestbook5.ru/guestbook.php
    http://www.forum.co.uk/memberlist.php

    1. В "Add If Contain" ("OR") добавляем ".ru/". Жмем "Filter". В результатах:

      http://www.guestbook5.ru/guestbook.php

    2. В "Add If Contain" ("OR") добавляем 2 строки ".com/" + "guest". Жмем "Filter". В результатах:

      http://www.guestbook1.com
      http://www.guestbook2.com/guest.html
      http://www.guestbook3.com?param1=val1&param2=val2
      http://www.guestbook4.de?phpsessid=dk28akcfmrey7d832dfciv
      http://www.guestbook5.ru/guestbook.php

    3. В "Add If Contain" ("AND") добавляем 2 строки ".com/" + "guest". Жмем "Filter". В результатах:

      http://www.guestbook2.com/guest.html

    4. В "Skip If Contain" ("OR") добавляем ".com/" + "guest". Жмем "Filter". В результатах:

      http://www.forum.co.uk/memberlist.php

    5. В "Skip If Contain" ("AND") добавляем ".com/" + "guest". Жмем "Filter". В результатах:

      http://www.forum.co.uk/memberlist.php
      http://www.guestbook1.com
      http://www.guestbook3.com?param1=val1&param2=val2
      http://www.guestbook4.de?phpsessid=dk28akcfmrey7d832dfciv
      http://www.guestbook5.ru/guestbook.php

    6. В "Add If Contain" ("OR") добавляем ".php". В "Skip If Contain" ("OR") добавляем "guest". Жмем "Filter". В результатах:

      http://www.forum.co.uk/memberlist.php

    7. В "Add If Contain" ("AND") добавляем "book" + "2". В "Replacements" добавляем "ЧТО" - "2", "НА ЧТО" - "_here_was_2_". Жмем "Filter". В результатах:

      http://www.guestbook_here_was_2_.com/guest.html
      http://www.guestbook3.com?param1=val1&param_here_was_2_=val_here_was_2_
      http://www.guestbook4.de?phpsessid=dk_here_was_2_8akcfmrey7d83_here_was_2_dfciv

    Примеры использования в режиме регулярных выражений (опция "Do You Know Regular Expressions" установлена в "Yes"):

    1. В "Add If Contain" ("AND") добавляем " \?" + "&". Жмем "Filter". В результатах:

      http://www.guestbook3.com?param1=val1&param2=val2

    2. В "Add If Contain" ("OR") добавляем " \?" + "&". В "Skip If Contain" ("OR") добавляем "\w{11,}". Жмем "Filter". В результатах:

      http://www.guestbook3.com?param1=val1&param2=val2

    3. В "Add If Contain" ("OR") добавляем "book\d+". В "Skip If Contain" ("OR") добавляем "\?". Жмем "Filter". В результатах:

      http://www.guestbook1.com
      http://www.guestbook2.com/guest.html
      http://www.guestbook5.ru/guestbook.php

    4. В "Add If Contain" ("OR") добавляем "book\d+". В "Skip If Contain" ("OR") добавляем "\?".В "Replacements" добавляем "ЧТО" - "(guest)(book)", "НА ЧТО" - "$2$1" - используем substitution шаблона. Жмем "Filter". В результатах:

      http://www.bookguest1.com
      http://www.bookguest2.com/guest.html
      http://www.bookguest5.ru/bookguest.php

    5. В "Replacements" добавляем "ЧТО" - "\?phpsessid.*$" + "(\/\w+)\.php", "НА ЧТО" - "many_people_want_to_remove_this" + "$1\.html" - используем substitution шаблона. Жмем "Filter". В результатах:

      http://www.forum.co.uk/memberlist.html
      http://www.guestbook1.com
      http://www.guestbook2.com/guest.html
      http://www.guestbook3.com?param1=val1&param2=val2
      http://www.guestbook4.demany_people_want_to_remove_this
      http://www.guestbook5.ru/guestbook.html

    Таким образом - освоив этот инструмент, вы получите безграничные возможности для текстовой обработки своих баз, да и вообще, любого текста. Удачи, дорвейщики!

    И в заключение. XKoVaToR - это прежде всего инстумент, который нужно правильно настроить для получения высокой производительности. Если у вас не достаточно квалификации для правильной настройки - начинайте с более простых бесплатных программ. Автор не оказывает помощь в настройке программы за исключением ответов на самые популярные вопросы здесь. Автор никогда не видел дорвеи и понятия не имеет что это. Автор никогда не посещал гостевые книги и не постил в них ни одного сообщения с линком. Автор не умеет составлять запросы в поисковые системы, не покупает и не продает списки запросов для вытравки спам-ресурсов. Автор вообще понятия не имеет о черном СЕО и не оказывает никаких консультаций по этому направлению. Не задавайте вопросы, которые не относятся конкретно к программе XKoVaToR.

    Удачи, дорвейщики!

    2007 X-Soft