URL
URL (от английского Uniform Resource Locator, что буквально переводится как «Единый Указатель Ресурсов») – единый для всех сайтов определитель места положения ресурса в сети Интернет. URL делится на составные части – домен, путь к странице и имя файла.
История возникновения
Изначально URL был изобретен для обозначения местоположения различных файлов в Интернете, и только со временем стал использоваться для того, чтобы обозначать адреса всех ресурсов, не зависимо от их типа.
Впервые использовать такой единый определитель адреса в 1990 году предложил Тим Бернерс-Ли в Европейском совете по ядерным исследованиям. Инновация была закреплена в качестве стандарта в документе RFC 1630 (нынешний стандарт URL отобраден в документе RFC 1738). Данный стандарт регулируется Инженерным советом Интернета (IETF).
Структура URL
Стандарт URL, разработанный для максимально простого и естественного указания нахождения ресурса в сети, использует лишь определенный набор символов и имеет единую структуру записи:
<схема>://<логин>:<пароль>@<хост>:<порт>/<URL‐путь>?<параметры>#<якорь>,
где
<схема> — это, как правило, сетевой протокол;
<логин> и <пароль> — имя пользователя, под которым осуществляется доступ к ресурсу, и пароль доступа;
<хост> — полное доменное имя в системе DNS либо IP-адрес хоста, указываемый десятичными числами, разделенными точками на четыре группы;
<порт> — порт для подключения;
<URL‐путь> — более точная информация о местоположении ресурса;
<параметры> — строка запроса, в котором указаны передаваемые на сервер параметры;
<якорь> — идентификатор, который ссылается на определенный раздел документа; в зависимости от якоря для пользователя открываемая страница может выглядеть по-разному.
Несмотря на то, что символ «//» все еще используется в локаторе URL, даже сам его разработчик, Тим Бернес-Ли признает, что на сегодняшний день он является излишним.
Недостатки URL
Главный недостаток адресов URL – это ограниченность допустимых символов. В URL можно использовать лишь цифры, латинские буквы и некоторые знаки препинания. Ни кириллический алфавит, ни иероглифы, ни специальные символы французского или немецкого языка в URL неприемлемы. В случае их использования адрес страницы перекодируется с помощью специального алгоритма.
Роль URL в SEO
Относительно того, влияет ли URL на позиции сайта в поисковой выдаче, мнения разделились. С точки зрения логики, соответствующий словам-запросам адрес ссылки должен быть положительно расценен поисковыми машинами. С другой же стороны, поисковики, во-первых, не всегда понимают транслит, а, во-вторых, при ранжировании страниц ориентируются на гораздо более весомые показатели, нежели URL (например, на ссылочную массу, соответствие контента запросу и мн.др).
Адепты же того мнения, что URL влияет на позицию в выдаче, считают, что наличие ключевых слов в URL делает поиск сайта и переход на него прежде всего более удобным для пользователя. Следовательно, поисковые системы, как ориентированные на пользователя, в числе прочего обращают внимание и на URL страницы.
Таким образом, можно сделать вывод, что лучше, чтобы URL содержал ключевые слова. Но если не содержит, то вполне можно обойтись и прочими инструментами SEO.
Что такое url-адрес: определение и структура
Приветствую всех читателей блога Александра Сергиенко! Сегодняшняя тема нашей статьи будет посвящена URL-адресам, собственно тому, что такое url-адрес сайта какую структуру имеет и ещё кое-что.
Эта статья будет первой в рубрике «Вопросы новичков», в которой я буду писать о наиболее простых вопросах, которые возникают у новичков. Ну, а эта статья может быть полезна не только новичкам, кое-что новое может узнать и «бывалый» блоггер.
Если подробно разбирать тему формирования урл-адресов, а тем более их более расширенную версию URI, можно встретить много сложностей в плане понимания, которые, в принципе, рядовому блоггеру и не нужно знать, разве что для общего развития.
data-ad-client=»ca-pub-8243622403449707″
data-ad-slot=»1319308473″
data-ad-format=»auto»>
Нам же главное понять, на данном этапе, структуру создания урлов, что мы и будем делать в данной статье.
Определение
Как вы уже знаете поисковые системы индексируют страницы сайты по некоторому принципу, в результате данную страницу сайта можно найти при помощи поисковой системы по некоторому запросу.Но это можно сделать, набрав, в строке браузера url-адрес страницы сайта. В общем, любая вебстраница (документ) любого Интернет-ресурса имеет свой уникальный адрес, который называют аббревиатурой URL (урл), а расшифровывается она как Uniform Resource Locator (определитель местонахождения ресурса). Разработал URL-адрес Тим Бернерс — Ли.
URL-адрес — это частный случай идентификатора URI (Uniform Resource Identifier — унифицированный идентификатор ресурса). Но об этом мы подробно разговаривать не будем, так как нам все эти тонкости на данном этапе не нужны.
Итак, урл-адрес — это способ в Интернете указать на какой-либо Интернет-ресурс (его страницу, документ). Этот URL-адрес используется не только для работы по протоколу http и https, которые нас будут интересовать в данной статье.
Вот как будет выглядеть c протоколом передачи данных http:
http://int-net-partner.ru/papka/fail.html
После протокола передачи данных http следует «int-net-partner.ru» или же это может быть «www.int-net-partner.ru». Доменное имя входит в обозначение URL-адреса и оно может быть как с WWW, так и без него.
Если говорить о поисковиках, то сайты с WWW и без него для них являются абсолютно разными для них. И если не произвести склейку зеркал, то ссылочная масса будет делится на два этих зеркала.Обычно склейку зеркал производит хостер, но это нужно обязательно проверить. Главное, что нужно сделать — это определить главное зеркало, которое будет индексироваться поисковиками, а также участвовать в ранжировании. Это можно сделать при помощи Гугл или Яндекс Вебмастер или прописыванием директивы Host в файле robots.txt.
На моём блоге главное зеркало — «int-net-partner.ru», «без WWW». Если же добавить к этому URL-адресу «WWW», то произойдёт автоматическое перенаправление на адрес «без WWW».
http://www.int-net-partner.ru/papka/fail.html
Хочу заметить, что склеить можно любые доменные имена. Но давайте рассмотрим Урл — адрес, расположенный выше. Путь до документа или файла (конкретного объекта) будет расположен за третьим слешем, в данном случае это «papka/fail.html«. В вышеприведённом примере в роли документа выступает «fail.html«, который находится в каталоге «papka«, который находится в корневой папке.
Также через урлы различные системы управления контентом передают GET параметры, которые добавляются в конец URL-адреса, после знака вопроса:
http://www.int-net-partner.ru/papka/fail.html?print=yes
Дело в том, что документы с GET параметром и без него, являются абсолютно разными для поисковиков, поэтому нужно вводить запрет в robots.txt, во избежание дублирования контента, за которое поисковики могут наложить определённые санкции.
К главной странице моего сайта можно обратиться по трём URL-адресам:
- http://int-net-partner.ru
- http://www.int-net-partner.ru
- http://www.int-net-partner.ru/index.php
И это опять же в плане дублирования контента очень и очень плохо. У меня же, при любом вводе Урла перенаправление идёт на URL-адрес такого вида: «http://int-net-partner.ru«
Как я уже говорил, перенаправление можно сделать при помощи 301 редиректа в файле .htaccess, или в настройках сервера вами или вашим хостером.
Структура URL-адреса
Вот так выглядет полный вид URL-адреса (блок-схема):
Обычно не используют логин, пароль и порт, хотя на некоторые сайты они могут понадобиться:
http://login:[email protected]/platniy-dostup.html
Иногда для входа на ftp-сервер может быть использован не стандартный порт, который отличается от используемого «по умолчанию» протокола. Тогда для доступа к такому ftp-серверу придётся вводить подобный урл:
ftp://login:[email protected]:6789/samoe-nujnoe/cimus
Кроме вышепреведённых примеров, в состав урл — адреса может добавляться якорь, который ставиться после символа «#» в конце урла. URL-адреса, которые содержат якоря, называют хеш-ссылками.
Якоря нужны для того, чтобы можно было перейти в нужное место страницы (там где проставлен якорь). Это удобно делать, если вы хотите сделать содержание своей статьи, тогда посетитель может перейти в нужную ему часть статьи, не просматривая её полностью. Чтобы это осуществить, нужно заранее проставить якоря (в нужных местах) внутри Html кода страницы (документа), затем нужно добавить название самого якоря к урлу страницы через знак решётки «#».
Перекодировка
А теперь давайте ещё поговорим о перекодировке URL-адресов. Вот, например, использование русских символов допустимо, но в этом случае произойдёт перекодировка этих символов, URL Encoding.
Вот пример:
http://int-net-partner.ru/оптимизация сайта/
А вот, что получилось после перекодировки:
http//int-net-partner.ru/%BA%B1%82%D0%BE%20%D0%BD%D0% B0%20%D0%BD%D0%BE%D0%B2%D0%B5%D0%BD%D1%8C%B0%BA%D0 %BE%D0%B3%D0%BE
Вот видите, не очень удобоваримый вариант. Поэтому, по мнению многих оптимизаторов, лучше использовать транслитерацию, так как это будет намного лучше в плане SEO оптимизации под поисковики.
P.S.
Как вам статья? Рекомендую получать свежие статьи блога на e-mail, чтобы не пропустить много новой интересной информации!
С уважением, Александр Сергиенко
URL — это… Что такое URL?
Единый указатель ресурсов (англ. URL — Uniform Resource Locator) — единообразный локатор (определитель местонахождения) ресурса. По-английски «URL» целиком произносится как /ɜː(ɹ)l/, по-русски чаще говорят [у-эр-э́л], [ю-ар-эл] или [урл] (сленг). Ранее назывался Universal Resource Locator — универсальный локатор ресурса. URL — это стандартизированный способ записи адреса ресурса в сети Интернет.
История
URL был изобретён Тимом Бернерсом-Ли в 1990 году в стенах Европейского совета по ядерным исследованиям (фр. Conseil Européen pour la Recherche Nucléaire, CERN) в Женеве, Швейцария. URL стал фундаментальной инновацией в Интернете. Изначально URL предназначался для обозначения мест расположения ресурсов (чаще всего файлов) во Всемирной паутине. Сейчас URL применяется для обозначения адресов почти всех ресурсов Интернета. Стандарт URL закреплён в документе RFC 1738, прежняя версия была определена в RFC 1630. Сейчас URL позиционируется как часть более общей системы идентификации ресурсов URI, сам термин URL постепенно уступает место более широкому термину URI. Стандарт URL регулируется организацией IETF и её подразделениями.
Структура URL
Изначально локатор URL был разработан как система для максимально естественного указания на местонахождения ресурсов в сети. Локатор должен был быть легко расширяемым и использовать лишь ограниченный набор ASCII‐символов (к примеру, пробел никогда не применяется в URL). В связи с этим, возникла следующая традиционная форма записи URL:
<схема>://<логин>:<пароль>@<хост>:<порт>/<URL‐путь>?<параметры>#<якорь>
В этой записи:
- схема
- схема обращения к ресурсу; в большинстве случаев имеется в виду сетевой протокол
- логин
- имя пользователя, используемое для доступа к ресурсу
- пароль
- пароль указанного пользователя
- хост
- полностью прописанное доменное имя хоста в системе DNS или IP-адрес хоста в форме четырёх групп десятичных чисел, разделённых точками; числа — целые в интервале от 0 до 255.
- порт
- порт хоста для подключения
- URL-путь
- уточняющая информация о месте нахождения ресурса; зависит от протокола.
- параметры
- строка запроса с передаваемыми на сервер (методом GET) параметрами. Разделитель параметров — знак &.
Пример: ?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3
- якорь
- идентификатор «якоря», ссылающегося на некоторую часть (раздел) открываемого документа. С развитием AJAX в этой части стали размещать параметры для JavaScript на странице, и страница в зависимости от указанного якоря может в браузере выглядеть по-разному. Для обеспечения возможности индексирования подобных страниц поисковыми системами компания Google предложила подход, предполагающий использование знака ! в начале якоря и некоторую поддержку на сервере сайта[1].
На сегодняшний день Тим Бернес-Ли признаёт, что символ двойной косой черты в структуре URL является избыточным[2].
Схемы (протоколы) URL
Общепринятые схемы (протоколы) URL включают:
- ftp — Протокол передачи файлов FTP
- http — Протокол передачи гипертекста HTTP
- rtmp — Real Time Messaging Protocol проприетарный протокол потоковой передачи данных, в основном используется для передачи потокового видео и аудиопотоков с веб-камер через интернет.
- rtsp — Потоковый протокол реального времени.
- https — Специальная реализация протокола HTTP, использующая шифрование (как правило, SSL или TLS)
- gopher — Протокол Gopher
- mailto — Адрес электронной почты
- news — Новости Usenet
- nntp — Новости Usenet через протокол NNTP
- irc — Протокол IRC
- prospero — Служба каталогов Prospero Directory Service
- telnet — Ссылка на интерактивную сессию Telnet
- wais — База данных системы WAIS
- xmpp — Протокол XMPP (часть Jabber)
- file — Имя локального файла
- data — Непосредственные данные (Data: URL)
- tel — звонок по указаному телефону
Экзотические схемы URL:
- afs — Глобальное имя файла в файловой системе Andrew File System
- cid — Идентификатор содержимого для частей MIME
- mid — Идентификатор сообщений для электронной почты
- mailserver — Доступ к данным с почтовых серверов
- nfs — Имя файла в сетевой файловой системе NFS
- tn3270 — Эмуляция интерактивной сессии Telnet 3270
- z39.50 — Доступ к службам ANSI Z39.50
- skype — Протокол Skype
- smsto — Открытие редактора SMS в некоторых мобильных телефонах
- ed2k — Файлообменная сеть eDonkey, построенная по принципу P2P
- market — Android Маркет
Кодирование URL
Появление адресов URL стало существенным нововведением в Интернете. Однако с момента его изобретения и по сей день стандарт URL обладает серьёзным недостатком — в нём можно использовать только ограниченный набор символов, даже меньший, нежели в ASCII: латинские буквы, цифры и лишь некоторые знаки препинания. Если мы захотим использовать в URL символы кириллицы, или иероглифы, или, скажем, специфические символы французского языка, то нужные нам символы должны быть перекодированы особым образом.
В русскоязычной Википедии ежедневно приходится видеть пример кодирования URL, поскольку русский язык использует символы кириллицы. Например, строка вида:
http://ru.wikipedia.org/wiki/Микрокредит
кодируется в URL как:
http://ru.wikipedia.org/wiki/%D0%9C%D0%B8%D0%BA%D1%80%D0%BE%D0%BA%D1%80%D0%B5%D0%B4%D0%B8%D1%82
Такое преобразование происходит в два этапа: сначала каждый символ кириллицы кодируется в Юникоде (UTF-8) в последовательность из двух байтов, а затем каждый байт этой последовательности записывается в шестнадцатеричном представлении:
М → D0 и 9C → %D0%9C и → D0 и B8 → %D0%B8 к → D0 и BA → %D0%BA р → D1 и 80 → %D1%80, и т. д.
Перед каждым таким шестнадцатеричным кодом байта, согласно спецификации URL[3], ставится знак процента (%) — отсюда даже возник английский термин «percent‐encoding», обозначающий способ кодирования символов в URL и URI.
Иные распространённые, но недопустимые в URL символы кодируются в таком соответствии:
! | « | #[4] | % | &[4] | ‘ | * | ,[4] | :[4] | ;[4] | < | =[4] | > | ?[4] | [ | ] | ^ | ` | { | | | } | <пробел> |
%21 | %22 | %23 | %25 | %26 | %27 | %2a | %2c | %3a | %3b | %3c | %3d | %3e | %3f | %5b | %5d | %5e | %60 | %7b | %7c | %7d | %20[5] |
Поскольку такому преобразованию подвергаются буквы всех алфавитов, кроме базовой латиницы, то URL со словами на подавляющем большинстве языков (кроме английского, итальянского, латинского) может утратить способность восприниматься людьми.
Это всё входит в противоречие с принципом интернационализма, провозглашаемого всеми ведущими организациями Интернета, включая W3C и ISOC. Эту проблему призван решить стандарт IRI (англ. International Resource Identifier) — международных идентификаторов ресурсов, в которых можно было бы без проблем использовать символы Юникода, и которые поэтому не ущемляли бы права других языков. Хотя заранее сложно сказать, смогут ли когда‐либо идентификаторы IRI заменить столь широко используемые URL (и URI в целом).
Инициатива PURL
Ещё один кардинальный недостаток URL состоит в отсутствии гибкости. Ресурсы во Всемирной паутине и Интернете перемещаются, а ссылки в виде URL остаются, указывая на уже отсутствующие ресурсы. Это особенно болезненно для электронных библиотек, каталогов и энциклопедий. Для решения этой проблемы были предложены постоянные локаторы PURL (англ. Persistent Uniform Resource Locator). В сущности это те же URL, но они указывают не на конкретное место расположения ресурса, а на запись в базе данных PURL, где, в свою очередь, записан уже конкретный URL‐адрес ресурса. При обращении к PURL сервер находит нужную запись в этой базе данных и перенаправляет запрос уже на конкретное местоположение ресурса. Если адрес ресурса меняется, то нет нужды исправлять все бесчисленные ссылки на него — достаточно лишь изменить запись в БД. В настоящий момент эта идея не стандартизирована и не имеет широкого распространения.
Примеры URL
http://ru.wikipedia.org/wiki/URL http://en.wikipedia.org:80/wiki/Special:Search?search=train&go=Go ftp://myname:[email protected]:21/etc/motd file://vms.myhost.edu/disk$user/my/notes/note123.txt
См. также
Примечания
Ссылки
Правильная структура URL адресов | web-revenue.ru
Автор Алексей На чтение 3 мин. Опубликовано
Сегодня речь пойдет о структуре URL адресов сайтов, какой она должна быть, как ее лучше формировать, чтобы понравится поисковым системам, статья написана на основе рекомендаций поисковой систему Google, так же отлично подходит под яндекс.
Основные принципы формирования URL
Самое главное — структура URL сайта должна быть предельно простой и понятной как для человека, так и для робота. Старайтесь организовать структуру сайта так, чтобы при наполнении его контентом, конечные URL страниц имели логическую структуру и были человеко понятными (имели ЧПУ, если есть такая возможность, т.е. используем не идентификаторы, например: https://web-revenue.ru/index.php&id=377), а слова и желательно в транслитерации (например: https://web-revenue.ru/pravilnaya-struktura-url-adresov, либо https://web-revenue.ru/seo/pravilnaya-struktura-url-adresov). Старайтесь, чтобы в адресе не было, ничего лишнего, только слова разделенные дефисом (-), без всяких запятых, точек и прочих знаков препинания.
Так же учтите, что слишком сложные и длинные URL — поисковая система может не обрабатывать страницы, у которых в УРЛ адресе более 1024 символов. Следовательно, если вы используете вложенные адреса типа: sait.ru/categoriya1/podcategoriya/nazvanie-stranici, то не делайте большую вложенность и старайтесь сократить конечны УРЛ, к примеру у меня на блоге есть категория wordpress, в этой категории еще статьи, пусть будет: Как узнать название WordPress шаблона установленного на чужом сайте, плагин это название автоматом отправляет в транслит, получается kak-uznat-nazvanie-wordpress-shablona-ustanovlennogo-na-chuzhom-sayte и с учетом вложенности конечный адрес уже не укладывается в приделы, следовательно, я его сам сокращаю, выкидываю к примеру wordpress, получаю с учетом вложенности https://web-revenue.ru/wordpress/kak-uznat-nazvanie-shablona-ustanovlennogo-na-chuzhom-sayte.
Основные причины возникновения избыточного количества символов в URL и появления мусорных адресов
Фильтрация и сортировка элементов. Данная проблема обычно встречается у различных каталогов, интернет магазинов и т.д. где стоят какие-либо фильтры контента по различным критериям.
Динамически создаваемые страницы (документы). Пример: страницы с метками (популярно у тех кто ведет блоги на wordpress), по сути ту сование одного и того же контента.
Неработающие относительные ссылки — это ссылки без протокола http или https://domen-site.ru/put, могут иметь вид: Папка/Ссылаемый-документ.html или ../../Ссылаемый-документ.html и т.д. И если такая ссылка не работает, то зачастую это приводят к появлению бесконечных адресов: https://site.ru/index.php/category/myuroki/0717/html/view/…….
Варианты решения проблемы
- Заблокируйте доступ к проблемным URL (теги, результаты поиска, календари и т.д. — почти все что создается динамично) с помощью файла robots.txt.
- По возможности укоротите URL, удалив из них ненужные параметры.
- Убедитесь, в корректности работы на сайте относительных ссылок.