Бортовой журнал. Особенности работы с User-agent Что из себя представляет User-agent

Если у вас мания преследования, это не значит, что за вами никто не следит...

Медицинское наблюдение

Некоторое удивляются: "А как какой-то_сайт.ру узнал мою ОСь и браузер?". Да, многие сервисы собирают такую информацию, т.к. это иногда важно для корректного отображения страниц. Еще это важно для сбора статистики. Например, благодаря такой информации я знаю, что среди посетителей нашего сайта 33% используют ОС Ubuntu и ей подобные и еще 30% пользуются другими дистрибутивами Linux.

Вообще-то, в этом (сборе таких данных) нет ничего страшного, если верны все 5 утверждений из нижеприведенных:

  1. Вы не пользуетесь Windows.
  2. Вы не троллите на хакерских сайтах (и вообще не хамите).
  3. Всю ценную информацию вы храните на удаленных серверах с регулярным бэкапом и 2048-битным паролем (ну, или дома под подушкой).
  4. Вы не страдаете манией преследования.
  5. Вы добропорядочный налогоплательщик.

Так же можно ничего не бояться, если вы вообще не выходите в интернет.

Лично я не могу выполнить пп.4-5, поэтому регулярно "меняю" свой браузер и ОСь.

Справка по User Agent

Чтобы узнать информацию о посетителех, сервер запрашивает у браузера информацию, называеюмую USER-AGENT. Это текстовая строка типа такой:

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; .NET CLR 3.5.30729)

Обычно в ней содержится информация о версии ПО, операционной системе и языке системы, но может быть и что-то еще.

В приведенной строке содержится такая информация:

  • ОС Windows Vista
  • Браузер Internet Explorer 6.0
  • .NET версии 3.5.30729

Некоторые компании (все, купленные Майкрософтом плюс многие банки, используеющие HTTP-клиент-банк) не поддерживают свои сайты для браузеров, отличных от MSIE. Именно поэтому подмена значения USER-AGENT актуальна не только для жделающих скрыть свою информацию, но для добропорядочных линукс-пользователей.

Со списком значений поля USER-AGENT можно ознакомиться в Википедии .

Мы же попробуем менять значение поля USER-AGENT в браузерах Firefox и Chrome\Chromium. Все описанное делалось в Ubuntu, но будет прекрасно работать в любой другой ОС.

Поехали...

Подделка User-agent в браузере Firefox

Вариат 1 - простой

Для начала устанавливаем плагин User Agent Switcher . Перезапускаем Firefox и выносим кнопочку User Agent Switcher на панель (можно и не выносить, а использовать через меню "Инструменты").

Но по умолчанию список User-agent-switcher очень мал, поэтому на надо его расширить (хотя, вам может и хватит).

Скачиваем файлик useragentswitcher.xml . Открываем настройки User Agent Switcher , давим кнопку Import и выбираем свежескачанный файл.

Теперь можно представляться практически любым из существующих браузеров.

Вариант 2 - для красноглазиков

Открываем в браузере страницу настроек. Для этого в адресной строке пишем:

Создаем строковый параметр general.useragent.override . По умолчанию его не существует

И задаем ему любое значение - именно его бразер будет отдавать на запрос о User Agent.

Подделка User-agent в браузере Chrome и Chromium

Вариант 1 - простой, но бестолковый

Этот способ похож на первый вариант для Firefox, но Хромовский плагин сильно бестолков, т.к. не может подменить реальное поле User-agent. Эта обманка действует только, если сайт определяет ОСь и браузер средствами Java. Вот ссылка на страницу плагина . По заявлению самого автора плагина все будет шоколадно, когда Google опубликуе API по данному вопросу.

Приветствую!

Интернет-браузеров существует превеликое множество – как для классических компьютеров и ноутбуков, так и созданных для мобильных гаджетов, и даже телевизоров (смарт-тв). А последний тренд – это браузеры для смарт-часов, хотя удобство выхода во всемирную сеть с устройства со столь низкой диагональю дисплея под большим вопросом.

И помимо дизайна, функционала и «движка», они также имеют и свои собственные идентификаторы. Эти идентификаторы именуются просто – юзер агент.

И если у вас возникла необходимость посмотреть юзер агент, что имеет используемый вами браузер, то данная задача решается молниеносно. Рассмотрим, как это можно сделать наиболее быстро и просто.

Узнаём User Agent интернет-браузера – инструкция

Дабы выполнить задуманное, не требуется использовать какое-либо стороннее программное обеспечение и тому подобные вещи. User Agent вместе с другой технической информацией автоматически передаётся при посещении любого сайта, браузер таким образом «представляется», ведь от данного параметра порой зависит, какую версию сайта в итоге увидит посетитель. К примеру, если в юзер агенте фигурирует: Android, iOS, Mobile, то предполагается, что пользователь просматривает сайт с мобильного гаджета – тогда ему показывается облегчённая версия сайта.

С принципом передачи юзер агента и того, зачем это нужно, мы разобрались. Теперь осталось дело за малым – узнать юзер агент собственного браузера.

Если он автоматически передаётся, то можно сделать соответствующий интернет-сервис, который бы просто выводил его при посещении одной из страниц.

Там же можно подчеркнуть дополнительную информацию о вашем браузере, а также ваш IP адрес.

В один прекрасный день вам обязательно понадобятся актуальные значения юзер агент (user agent). В своих поисках пересмотрите много специальных сайтов, размещающих такие списки, но свежих данных не найдете. Далее опишем способ получения списка значений user agent, наиболее актуальных на текущую дату. Не исключено, что несколько записей будет от старых браузеров так как наш метод основан на сборе статистики посещений сайтов, а некоторые пользователи пользуются старыми не обновленными версиями программ.

Для тех кто забыл: User Agent - это клиентское приложение, использующее определённый сетевой протокол. Термин обычно используется для приложений, осуществляющих доступ к веб-сайтам, таких как браузеры, поисковые роботы (и другие «пауки»), мобильные телефоны и другие устройства.

1 этап — сбор статистики с сайтов

Для сбора значений юзер агентов нам понадобятся свои работающие сайты, если нет своих, можно попросить друзей, если и у друзей нет, то можно за небольшое вознаграждение поискать исполнителя на каком-нибудь сео форуме или фриланс сайтах. Чем больше посещаемость сайта, тем лучше так как статистика соберется за короткий срок и по объему она будет значительно лучше.

Определившись с сайтами «донорами» идем в панель управления хостинга и в меню «Журналы» (такое название меню у хостинга beget, в другом может отличатся) включаем функцию «Журнал доступа к веб-серверу». После этих манипуляций в коневой папке сайта появится текстовый файл со списком записей к каким страницам вашего сайта были обращения, ip-адрес и юзер агент устройства. Далее нужно выждать время чтобы эти записи накопились.

На следующем изображении выделена запись user agent, которые мы и сможем узнать и будем собирать.

2 этап — чистка списка user agent

Скачиваем получившиеся файлы к себе на компьютер, если их несколько, то открываем любой в блокноте, а все последующие добавляем в него копированием текста. Тем самым мы подготовим файл для загрузки через excel. В нашем примере получился файл на 86072 строки. Далее необходимо получившийся файл открыть через excel. Открываем программу, жмем «Файл»-«открыть», в следующем окне выбираем наш файл. Далее откроется мастер текстов (импорт) в котором нужно поставить чекбокс в положение «с разделителями» и в следующем окне в поле «другой» поставить двойную кавычку. На третьем шаге в таблице «образец разбора данных» выделить последний столбец и указать для него формат «текст».

После такого импорта данные о посещении разбиты по столбцам. Нужные нам юзер агенты находятся в столбце F, поэтому смело можно удалить столбцы от A до E. Далее необходимо воспользоваться встроенной в excel функцией удаления дублей. В 2007 версии кнопка «удалить дубликаты» находится на вкладке «данные». Нажимаем ее и видим, что вместо 86072 строк, осталось 1555. Но на этом не останавливаемся, а следующим шагом удаляем ненужные записи юзер агент от поисковых систем. Выглядят они так: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Можно поставить фильтр по слову «bot» или «compatible». Далее идем по списку юзер агент и удаляем не нужные нам записи, например, от браузеров телефонов на андроид или айфон.

3 этап — итоговый файл

После всех чисток, получился довольно большой файл user agent, который можете использовать для смены записи в браузере, для добавления в программы парсинга и тому подобные. Актуальность списка — первая половина февраля 2016 года. Периодически он будет обновляться.

В файле экселя есть 3 вкладки:

  1. Основной список, где найдете 823 записи user agent от yandex, mozila firefox, opera, internet explorer (IE), google chrome, safari и других браузеров. Записи собирались со статистики посещений сайта, поэтому могут попадаться старые браузеры и операционные системы, ведь не у всех они обновлены.
  2. Вкладка «Мобильные устройства» содержит лист с 530 записями от мобильных браузеров. Решено их не удалять, а перенести в отдельную вкладку.
  3. Во вкладке «Мусор» собрали старые версии браузеров, использование которых не рекомендуется.

Заключение

Файл user agent браузеров не в фомате txt, но это легко поправимо обычным копированием. На сайтах донорах использовался протокол http. Если в строке встречается запись wow64, то она означает, что компьютер посетителя с таким юзер агентом использует 64-битную операционную систему. Большая часть посетителей — это Россия.

Способ сбора записей не самый быстрый и удобный, но лучше, чем использовать старые и не современные записи.

Юзерагент (User Agent) – это идентификатор браузера, показывающий сайтам: вашу операционную систему и ее версию, разрядность, ваш браузер и его версию. Каждый браузер с которого вы заходите в интернет имеет свой юзер агент, но его можно поменять с помощью специальных расширений.

Юзер агенты могут понадобиться для работы в различных программах, например MultiBrowser, ZennoPoster, LSender VK PRO, различный софт для вк и т.д. При работе в таких программах важно использовать только актуальные версии юзерагентов, потому что на основании их некоторые сайты делают определенные выводы. При использовании старых и “плохих” юзер агентов может даже повышаться вероятность блокировки.

Пример юзер агента: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36

Операционная система Windows 7, архитектура x64
Браузер Chrome 67.0.3396.87

Где взять актуальный список

Важность использования только актуальных юзер агентов очевидна. Если вы будете использовать в работе те же юзерагенты что и большинство пользователей интернета, вопросов у сайтов к вам не будет. С точки зрения сайтов вы будете выглядеть как обычный пользователь, нам как раз это и нужно при использовании программ для различной автоматизации.

Так где же взять юзерагенты? Оказалось в интернете практически нет ресурсов предоставляющих актуальные юзер агенты. Самый популярный сайт с юзер агентами (useragentstring.com/pages/useragentstring.php) не обновляет базу уже несколько лет.

Мы решили это исправить и запустили онлайн сервис , который обновляет базу каждый день. Юзер агенты в базе реальные, используемые пользователями в рунете. Можно скачать как бесплатный список, так и купить premium доступ.

Индексация содержимого страниц сайта поисковыми системами происходит при помощи различных поисковых роботов. Все они проводят на сайте определенное время. Поэтому важно, чтобы была проиндексирована вся нужная информация, которая может привлечь посетителей.

Если сайт состоит из большого количества страниц, то целесообразно скрыть от внимания ботов ту информацию, которая не является целью первоначального запроса при поиске информации по теме сайта в интернете. Также на период внесения изменений в тексты или оформление сайта можно скрыть его весь или отдельные страницы от поисковиков. Для того чтобы это сделать, нужно отредактировать файл Robots.txt, расположенный в корневой директории сайта. В нем прописываются строки User-agent – директив, которые задают инструкции ботам поисковых систем при работе с сайтом. Именно их нужно менять, чтобы управлять индексацией.

Что из себя представляет User-agent?

User-agent есть в любом браузере и мобильном устройстве. Эта строка содержит множество сведений о компьютере, операционной системе, версии браузера. Прописанные в файле Robots.txt, строки с описанием User-agent влияют на работу поисковых систем на сайте. С их помощью можно скрыть от поисковиков (от всех или каких-то определённых) находящуюся на сайте информацию – какую-то страницу или весь сайт, конкретный тип файлов. Ограничивая индексацию по типу файлов, к примеру, можно сделать видимыми только картинки, только тексты или, наоборот, исключить из индексации конкретный тип файла.

Ограничение видимости можно прописать для бота конкретной поисковой системы или для всех роботов. Инструкции прописываются для каждого робота, для которого известно написание User-agent.

Из строки, содержащей описание User-agent можно узнать следующие сведения:

  • Наименование основного браузера, его версию;
  • Версию операционной системы;
  • Какое специфическое программное обеспечение установлено на устройстве;
  • Вид устройства, с которого осуществляется выход в интернет.

Изменение User-agent может понадобиться не только для того чтобы редактировать параметры индексации сайта, но и чтобы скрывать нежелательную для отслеживания информацию: например, вид устройства для аккаунтов Google, VK. Также с помощью редактирования User-agent можно сделать актуальным устаревший браузер, перестать получать предложения об установке того или иного браузера. Изменение данной строки в разных браузерах и устройствах происходит по-своему. Следует искать инструкции для конкретного браузера или типа операционной системы (Android, iOS).

User-agent и поисковые роботы Google

Одной из самых популярных поисковых систем является Google, и этой системой создано множество ботов для индексации различного контента на сайтах и устройств, с которых осуществляется выход в интернет.

Некоторые боты системы:

  • APIs-Google – робот для рассылки push-уведомлений;
  • AdSense – распознает содержание сайта для размещения соответствующих тематике объявлений;
  • AdsBot Mobile Web Android, Mobile Apps Android, AdsBot-Google и AdsBot Mobile Web – для проверки рекламного контента, размещенного на сканируемом портале. Каждый из ботов отвечает за свои устройства – компьютеры, телефоны на IOS или Android, мобильные приложения;
  • Googlebot Images – сканирует файлы, являющиеся изображением;
  • Googlebot News – ищет информацию для размещения в новостном разделе системы;
  • Googlebot Video – отвечает за видеофайлы;
  • Googlebot.

Основной робот для поисковика Google – это Googlebot. В случае необходимости полной блокировки индексации всего сайта для этой системы, достаточно внести в файл Robots.txt условие, устанавливающее Googlebot агентом пользователя. Тогда для всех ботов компании Google сайт станет невидимым. Можно ограничить видимость определенного контента. Тогда нужно настроить правило для агента, отвечающего за этот контент. Например, сканированием изображений на сайте занимается Googlebot-Image. Запись в файле Robots, где оформляется данная операция, выглядит так:

User-agent: Googlebot

Disallow: (здесь остается пустое место, так как основному боту ничего не запрещается)

User-agent: Googlebot-Image

Disallow: /personal (запрет на видимость изображений в личном каталоге для бота, ответственного за контент данного типа).

Можно запретить индексацию всего сайта, но разрешить индексировать конкретный контент, например, видео или размещенную рекламу. К примеру, чтобы разрешить сканировать только видео, основному боту нужно запретить индексацию всего сайта, а в качестве агента, для которого запретов не предусмотрено, указать Googlebot Video.

Если сайт должен быть виден поисковой системе Google полностью, без исключений, то файл Robots.txt не нужен, его можно вовсе удалить (при условии, что не нужно ограничить какой-либо другой поисковик).

Списки User-agent

Чтобы просмотреть список User-agent поисковой системы, достаточно перейти в соответствующий раздел ее сайта в интернете.

Списки строк агента пользователя для всех ботов Google можно найти на официальной странице ресурса в разделе «Поисковые роботы Google». Там находится подробная таблица с описанием ботов, их назначения, строками User-agent для каждого из них и инструкциями по прописыванию правил доступа в robots.txt и метатегах.

Основным поисковым ботом Яндекса является Yandex, для Yahoo! это Slurp, Рамблер запускает по Сети бота StackRambler, у Мэйл.ру функцию основного робота выполняет Mail.Ru. обычно крупные поисковики имеют нескольких роботов, перечень которых должен быть на их сайте с указанием полных строк агентов пользователя.

Если специальных настроек видимости для роботов поисковых систем на сайте не требуется, то можно удалить файл robots.txt и тогда сайт компании будет полностью сканироваться всеми роботами, если какие-либо другие параметры не помешают индексации.

Загрузка...
Top