DOWNLOAD LAST VERSION

XKoVaToR - 1.3

Руководство "для чайников" в картинках. Часть первая - "настройки" (67кб).
Руководство "для чайников" в картинках. Часть вторая - "парсим гугл" (164кб).
Руководство "для чайников" в картинках. Часть третья - "тащим русские pdf из яндекса" (114кб).


Google Parsing Process
Keywords Parsing Process
URLs Checks Process
URLs Collection Tab
Options Tab

Модуль "Search Engines Parsing"

Основные воможности

  • Парсер google.com [$50] (макс 100 линков в серпе, макс 1000 линков на 1 запрос, ротация 40 хостов, 36 языков выдачи, требуются прокси. При парсинге без прокси ваш IP будет забанен гуглом на несколько часов. В режиме "First Serp" можно продолжать парсинг и с забаненого IP. В сочетании вращение переменной lr (язык выдачи) + добавление доменных зон "Add Zones" в большинстве случает отпадает необходимость использования вариаторов);

  • Парсер live.com [$60] (макс 100 линков в серпе, макс 1000 линков на 1 запрос, 38 языков выдачи. Парсинг без прокси и без бана. Поддерживаемые модификаторы: [site: intitle: link: (?)];

  • Парсер yahoo.com [$50] (макс 10 линков в серпе, макс 1000 линков на 1 запрос. Для длительной вытравки необходимы прокси. Поддерживаемые модификаторы: [site: inurl: intitle:];


  • Парсер yahoo siteexplorer [$70] (макс 10 линков в серпе, макс 1000 линков на 1 запрос, лучший парсер бэклинков для заданных урлов. Ограничение - макс 1000 бэклинков на 1 домен. Для длительной вытравки необходимы прокси. Этот парсер применяется только для вытравки бэков и всех страниц на заданном домене);

  • Парсер yandex.ru [$50] (макс 50 линков в серпе, макс 1000 линков на 1 запрос, 6 языков выдачи, 7 разновидностей mime типов вытравливаемых документов (html, pdf и т.п.). Парсинг без прокси и без бана);

  • Автоматическое подмешивание доменных зон к каждому запросу, позволяющее увеличить количество результатов в десятки раз. Возможность редактирования списка доменных зон.
  • Автоматическое подмешивание слов-вариаторов из редактируемого списка.
  • Ротация хостов поисковых систем (автоматически). Уменьшает вероятность бана прокси серверов и вашего IP при парсинге без прокси.
  • Автосхранение изменяемого списка в процессе работы и сохранение прогресса вытравки. Даже если парсинг будет прерван, работа будет продолжена с последней позиции и уже собранные результаты сохраняться.
  • Подсчет количества скаченных серпов для каждого поисковика.
  • Возможность парсить несколько поисковиков одновременно.
  • Отсутствие необходимости удаления дубликатов из списка. Дубликаты исключены алгоритмом.

Эксклюзивные возможности

  • Система Smart Parsing. Каждый из запросов в любой поисковик анализируется на количество документов в выдаче. В зависимости от этого значения XKoVaToR углубляет парсинг, добавляя к начальному запросу дополнительные слова-вариаторы (2 метода углубления - для запросов содержащих свыше 1000 и 100.000 результатов). Производительность такого парсинга очень высока, однако времени и трафика на парсинг уходит довольно много. Глубина "распарсивания внутрь" регулируется, но не может быть более 9-ти дополнительных слов-вариаторов на 1 запрос. Чем больше заданная глубина, тем больше понадобиться времени на парсинг (в геометрической прогрессии).
  • Поддержка GZip сжатия данных уменьшающая объем использованного трафика в 3-8 раз и соответственно повышающая скорость парсинга в те же 3-8 раз. Кроме того, за счет уменьшения размеров передаваемых через прокси пакетов надежность работы прокси повышается в 1.5-2 раза. GZip поддерживается Google, Live, Yahoo, Yandex.
  • Умная работа с прокси. При длительной работе этот алгоритм повышает скорость закачки контента в 2-3 раза.
  • Автоматическое определение и сохранение лучших слов-вариаторов из словаря. Накапливаются в процессе парсинга.
  • Автоматический перебор всех значений выбранной переменной (Rotate Variable). Например, можно парсить гугл по 1 запросу по 36 языкам выдачи. В сочетании с замешиванием доменных зон во многих случаях отпадает необходимость использования слов-вариаторов.
  • Автоматическое определение забаненных прокси и запрет их дальнейшего использования для каждого конкретного поисковика. За счет отсутствия пустых запросов скорость парсинга намного выше.
  • Сбор линков только с первого серпа поисковой системы. Для анализа текущего топа.
  • Полный контроль над параметрами выдачи поисковых систем. Каждый поисковик имеет свой набор предустановленных параметров позволяющих настроить парсинг под любые задачи.
  • Подержа запросов на любых языках. Все компоненты программы поддерживают отображение даже иероглифов.
  • 1 серп поисковика Live содержит по 100 линков. Даже с веб-интерфейса такое невозможно.
  • Автоматическая конвертация синтаксиса запросов для каждого поисковика. Например если запрос в Гугл выглядит "site:com", то в Yahoo он должен выглядеть "domain:com". За оригинал принят синтаксис Гугла.
  • Наличие списка стоп-слов как по подстроке, так и по регулярному выражению.
  • Возможность добавления в список только урлов на уникальных доменах.

Модуль "Keywords Parsing"

Основные воможности

  • Парсер базы кейвордов overture.com [$70] (18 региональных баз).
  • Парсер русскоязычной базы кейвордов yandex.ru [$50].
  • Парсер русскоязычной базы кейвордов mail.ru [$50].
  • Парсинг в режиме "Contain Given" - сбор всех кейвордов по заданной теме с переходами по страницам результатов.
  • Парсинг в режиме "Given + Parsing Inside" - сбор всех кейвордов по заданной теме с переходами по страницам результатов плюс поиск дополнитеьных кейвордов используя только что найденные (парсинг на максимальную глубину).
  • Ограничение по длине кейворда - как минимальной так и максимальной.
  • Отсутствие необходимости удаления дубликатов из списка. Дубликаты исключены алгоритмом.
  • Очень высокая скорость парсинга и минимальное потребление системных ресурсов.

Эксклюзивные возможности

  • Парсинг в режиме "Given + Inside + Split". В этом режиме XKoVaToR теоретически способен вытравить всю базу кейвордов источника, но на практике для этого не хватит ресурсов компьютера и парсинг будет длиться месяцами. Этот режим интересен, скажем, для вытравки всех имеющихся милионников.
  • Определение суммарного значения объема ежемесячных поисков по группе кейворда, если кейворд является главным в группе. Например по данным Овертюры на 01.12.06 "ebay" запрашивают около 9.2 миллиона человек, а кейворд "yahoo" - 4.4 миллиона. Однако группа кейвордов "yahoo" суммарно приносит 15.7 миллиона серчей, в то время как группа "ebay" - только 10.5 миллиона.
  • Наличие списка стоп-слов как по подстроке, так и по регулярному выражению.
  • Автоматическая фильтрация повторяющихся слов в кейворде. Например кейворд "free bingo casino free casino game" будет преобразован в "free bingo casino game".

Модуль "URLs Checks"

[$200] (при покупке любых 3-х парсеров - $150)

Основные воможности

  • Определение IP адреса хоста.
  • Определение скорости ответа хоста посредством отправки icmp пакетов (пинг) и замера среднего времени ответа.
  • Определение значения Google PR для самого урла.
  • Определение значения Google PR для домена урла.
  • Определение наличия необходимого содержимого в теле документа. Например форм или аттрибутов nofollow.

Эксклюзивные возможности

  • Мнгновенное определение страны хоста. Необходим файл data/vars.sys.
  • Определение количества документов, находящихся в индексе Google по домену урла. Если в индексе 0 - скорее всего домен забанен, больше 0 - гугл будет учитывать ссылки с этого урла. Другое применение: загружаем список 200 своих доменов, тратим 1 минуту на ожидание и видим сколько документов по какому домену в индексе. Необходимо для тех кто работает с большими объемами.
  • Определение обновления документа (только при втором и более проходах). Необходимо для мониторинга "обновляемости" ресурсов, например - определения частоты обновляемости rss лент.
  • Определение является ли документ XML совместимым. Применяется, например, при проверке rss лент.
  • Высочайшая скорость проверки Google PR. 100 потоков - 1200 урлов в минуту.
  • Сбор любого контента с адресов в базе. Формат необходимого содержимого определяется регулярным выражением. В XKoVaToR есть 6 предустановленных примеров:
    • Провека на наличие форм без ограничений по наличию элементов;
    • Провека на наличие форм с 1 элементом <input> и 1 элементом <textarea>;
    • Провека на наличие форм с 1 элементом <textarea> и сбор всех полей форм для их дальнейшего анализа (для настройки сабмиттеров);
    • Провека RSS лент;
    • Сбор емайл адресов;
    • Сбор контента. Не менее 50 символов в предложении, начинается с заглавной и заканчивается одним из символов (.?!);
    Вообще, собирать можно все что угодно, необходимо только составить правильное регулярное выражение (автор не оказывает помощи в составлении регулярных выражений). Настройки сборщика настолько гибкие, что использовать его можно для любых задач парсинга. Теоретически можно использовать коллектор как парсер кейвордов или поисковых систем. Однако для этого созданы специализированные модули, оптимизированные для выполнения соответствующих задач.
  • Весь собранный контент проходит через фильтры, что позволяет, например:
    • Собирать только испанский контент (в фильтр "Add If Contain" необходимо внести список часто используемых испанских слов);
    • Собирать только НЕ немецкий контент (в фильтр "Skip If Contain" необходимо внести список часто используемых немецких слов);
    • Сбор тематического контента (в фильтр "Add If Contain" необходимо внести список всех кейвордов, которые должны содержаться в предложениях);

Особенности программы.

  • Подсчет использованного трафика.
  • Работа через прокси. Сбор прокси серверов с неограниченного количества источников - как локальных, так и интернет-ресурсов.
  • Высокая пробиваемость (вероятность загрузить html для его обработки) за счет регулируемого количества попыток соединеня и таймаута на соединение.
  • Маскировка более чем под 800 разновидностей баузеров. Работа с cookies. Обход любых разновидностей JavaScript защиты контента. Покажите мне хоть одну программу которая может собирать прокси отсюда: http://tools.rosinstrument.com/proxy/. Попробуйте в ХKoVaToR ;-). Вебмастер сайта rosinstrument.com все никак не может поверить, что возможно собрать прокси вписанные зашифрованным скриптом в тело документа и регулярно модернизирует JavaScript код, выводящий прокси. По данному пункту вообще принимаются серьезные предложения - информация иногда дороже денег.
  • Большая вместимость списков кейвордов и урлов, быстрая загрузка и сохранение, мнгновенные сортировки и выборки по подстроке. Нагрузка на систему при парсинге не зависит от количества уже собранных элементов.
  • Сохранение функциональности всех инструментов оболочки в бесплатной демо версии. Освоив мощнейший фильтр, встроенный в XKoVaToR вы забудете про многие мелкие проблемы, связанные с обработкой текстовых списков.
  • Наличие горячих клавиш с человеческой логикой. Например Ctrl+A плюс Ctrl+C в любом из списков копирует весь список в буфер.
  • XKoVaToR не инсталлится, не пишет информацию в реестр и вообще никак не привязан к машине. Настроенную программу можно быстро перекинуть на сервер и не производить там никаких действий кроме распаковки архива.
  • Изготовление парсеров любых источников кейвордов или урлов. Если парсинг не потребует модернизации оболочки - заказчику парсер на 1 год бесплатно.
  • Дружественный интерфейс и очень высокая надежность работы программы несмотря на большой объем сложных ресурсоемких операций. Сворачивание в трей.

Ценообразование.

Лицензия на использование каждого модуля действительна в течение 1 года. Особенность проекта в том, что необходимо периодически обновлять схемы для парсинга того или иного источника. Этом момент и обуславливает временные рамки.

Пользователям оплаченных модулей: запрещено осуществлять логин под одним именем и паролем более чем с 3-х разных IP в сутки. За нарушение - пенальти на трое суток (72 часа). Сделано чтобы предотвратить бесплатное распространение программы.

ICQ: 502760 Shadow.


2007 X-Soft