Сканирование сайтов для поиска данных, "well-known"

BobbyWeisk

Сканирование сайтов для поиска данных, "well-known"

Непрочитанное сообщение BobbyWeisk »

Это бесплатный, открытый индекс известных ресурсов. Он регулярно сканирует миллионы доменов, составляя доступную для поиска базу данных структурированных хорошо известных данных ресурсов.
Поисковая система поддерживает специальные фильтры поиска для каждого типа ресурсов, что позволяет выполнять подробные запросы, позволяющие ответить на широкий спектр вопросов.
В настоящее время поддерживается 10 ресурсов.
Хорошо известные ресурсы - это файлы, размещенные сайтами в определенных "хорошо известных" местах. Эти ресурсы используются для передачи разнообразной информации о сайте и услугах, которые он предоставляет разработчикам, другим сайтам и сервисам и т.д.
Форматы и местоположения ресурсов обычно определяются в спецификациях, хотя некоторые возникли из-за отсутствия консенсуса и не были указаны официально. Они часто располагаются под /.well-known/дорожкой.
Хорошо известный бот
Хорошо известные проверки ресурсов выполняются WellKnownBot. Все запросы содержат User-Agentзаголовок, который включает строку WellKnownBotи URL этой страницы.
Хотя WellKnownBot выполняет автоматические запросы, он не является веб-сканером / пауком. Он запрашивает только небольшое количество конкретных ресурсов, предназначенных для общественного, программного потребления.
Поскольку он не является сканером, WellKnownBot не следует общим User-Agent: *правилам обхода в robots.txt файлы. Тем не менее, он подчиняется robots.txt правила в группах, которые специально нацелены на него.
Если вы хотите ограничить ресурсы, которые сканирует WellKnownBot, добавьте User-Agent: WellKnownBotгруппу на свой сайт.

Поддерживаемые ресурсы:
В /.well-known/настоящее время поддерживаются следующие типы ресурсов.

Авторизованные продавцы цифровых товаров
/ads.txt (спецификация)

Определено технической лабораторией IAB, ads.txt позволяет сайтам указывать, какие учетные записи рекламной системы имеют право продавать свой рекламный инвентарь.

Поиск ads.txt
Разобрать ads.txt
Сравнить ads.txt
Проверка цепочек поставок
Авторизованные продавцы цифровых приложений
/app-ads.txt (спецификация)

Определено технической лабораторией IAB, app-ads.txt позволяет разработчикам приложений указывать, какие учетные записи рекламной системы имеют право продавать рекламный инвентарь своих приложений.

Поиск app-ads.txt
Разобрать app-ads.txt
Сравнить app-ads.txt
Проверка цепочек поставок
Домен, связанный с Apple
/.well-known/apple-app-site-association (спецификация)

Спецификация Apple, которая позволяет сайту определять его связь с приложениями платформы Apple, например, разрешать вместо этого открывать ссылки на сайт в приложении.

Поиск apple-приложение-сайт-ассоциация
Проанализируйте ассоциацию apple-app-site
Ссылки на цифровые активы
/.well-known/assetlinks.json (спецификация)

Спецификация Google, которая позволяет сайту определять его связь с приложениями или другими сайтами, например, разрешать вместо этого открывать ссылки на сайт в приложении.

Поиск в файле assetlinks.json
Разбор assetlinks.json
Глобальный контроль конфиденциальности
/.well-known/gpc.json (спецификация)

Глобальный контроль конфиденциальности - это сигнал, который агенты пользователей могут отправлять сайтам, требуя, чтобы их личная информация не продавалась и не передавалась третьим лицам. Ресурс gpc.json позволяет сайтам указывать, соблюдают ли они Глобальный сигнал контроля конфиденциальности.

Поиск gpc.json
Синтаксический анализ gpc.json
NodeInfo
/.well-known/nodeinfo (спецификация)

NodeInfo - это стандартизированный способ предоставления метаданных о сервере, на котором запущена одна из нескольких распределенных социальных сетей.

Поиск nodeinfo
Разбор nodeinfo
Конфигурация поставщика OpenID
/.well-known/openid-configuration (спецификация)

Ресурс конфигурации поставщика OpenID включает метаданные о поставщике OpenID Connect, позволяющие клиентам настраивать себя для использования этого поставщика.

Поиск OpenID-конфигурация
Синтаксический анализ OpenID-конфигурации
Стандарт исключения роботов
/robots.txt (спецификация)

Неофициальный стандарт, который позволяет сайтам просить веб-сканеры не сканировать определенные URL-адреса.

Поиск robots.txt
Разобрать robots.txt
security.txt
/.well-known/security.txt (спецификация)

Позволяет сайтам сообщать о своих политиках безопасности, например, о том, как сообщить об уязвимости.

Поиск security.txt
Разобрать security.txt
trust.txt
/.well-known/trust.txt (спецификация)

Позволяет издателям объявлять соединения с другими издателями и ассоциациями.

Вернуться в «песочница»