Сообщаем о проведенном исследовании доменной зоны RU на конец 2020 года. База iAdmin URL выросла до 20 млн. веб-сайтов.
В рамках исследования был проведен анализ веб серверов, работающих в ru зоне, а также остальных хостов в целом. По итогам исследования каждому рабочему веб сайту была присвоена категория в соответствии с правилами категоризации по 78 категориям в базе IADMIN URL и выпущена новая версия категоризатора IADMIN.
Всего было исследовано 4990845 зарегистрированных доменов. Из них 456526 сайтов уже присутствовало в базе IADMIN ранее.
Исследовались 4 варианта подключения: c www и без www по доменному имени, и по портам 80 и 443 с шифрованием TLS. При этом 665267 сайтов не имели преобразования в ip адрес. 277039 не ответили на запрос по тайм ауту по протоколам HTTP или HTTPS. Выявлено 617 тыс. запаркованных доменов. Другие хосты из 1,7 млн нераспознанных веб сайтов отвечали иными ошибками, такими как 404 – страница не найдена, 403 — запрещено.
Всего в качестве новых сайтов было добавлено 2 792 500 веб сайтов на домене второго уровня. Для категоризации веб сайтов использовалась новая система искусственного интеллекта, позволившая категоризировать большие объемы данных.
Созданные за последние годы технологии позволили анализировать нам большие объемы данных. Теперь мы можем обрабатывать веб сайты по доменным зонам целиком и делать это с определенной периодичностью для отслеживания изменений. А новый искусственный интеллект осуществляет их моментальную категоризацию. Обучение ИИ является отдельным и очень важным направлением в нашей деятельности, поскольку от правильности обучающих данных зависит итоговый процент ошибок.