Uniform Resource Identifier
Ein {{lang|en|Uniform Resource Identifier}} (Abk. URI; engl. für „einheitlicher Bezeichner für Ressourcen“) ist ein Identifikator und besteht aus einer Zeichenfolge, die zur Identifizierung einer abstrakten oder physischen Ressource dient. URIs werden zur Bezeichnung von Ressourcen (wie Webseiten, sonstigen Dateien, Aufruf von Webservices, aber auch z. B. E-Mail-Empfängern) im Internet und dort vor allem im WWW eingesetzt.
Ursprünglich führte Tim Berners-Lee den Begriff 1994 im RFC 1630 als Universal Resource Identifier ein. Erst später tauchte dann in offiziellen W3C-Dokumenten die Auflösung Uniform auf. Aus diesem Grund wird Universal gelegentlich – selbst in der Fachliteratur – als erster Namensbestandteil genannt.
URIs können als Zeichenfolge (kodiert mit einem Zeichensatz) in digitale Dokumente, insbesondere solche im HTML-Format eingebunden oder auch von Hand auf Papier aufgeschrieben werden. Einen Verweis von einer Webseite auf eine andere nennt man Hyperlink oder kurz Link.
Eine Erweiterung der nur aus druckbaren ASCII-Zeichen bestehenden URIs sind die Internationalized Resource Identifiers (IRIs).
Aufbau
Nach dem aktuellen Standard RFC 3986 besteht ein URI aus fünf Teilen: scheme (Schema), authority (Anbieter), path (Pfad), query (Abfrage) und fragment (Teil), wovon nur scheme und path in jedem URI vorhanden sein müssen. Die generische Syntax ist
URI = scheme ":" hier-part [ "?" query ] [ "#" fragment ]
Dabei steht hier-part für eine optionale authority und den path. Ist eine authority vorhanden, beginnt sie mit zwei Schrägstrichen, und der Pfad muss mit einem Schrägstrich beginnen. Der Standard verdeutlicht diese Komponenten mit zwei Beispielen:
foo://example.com:8042/over/there?name=ferret#nose
\_/ \______________/\_________/ \_________/ \__/
| | | | |
scheme authority path query fragment
| _____________________|__
/ \ / \
urn:example:animal:ferret:nose
Scheme
Das Schema (der Teil vor dem Doppelpunkt) gibt den Typ des URIs an, der die Interpretation des folgenden Teils festlegt. Bekannte Schemata sind beispielsweise http, ftp, urn und doi.
Authority
Viele URI-Schemata wie http oder ftp haben einen authority-Teil. Der Begriff authority bezieht sich auf eine Instanz, die die Namen in diesem Raum zentral verwalten kann. Ein Beispiel dafür ist das Domain Name System, das von globalen und lokalen Registraren verwaltet wird.
Die authority besteht aus einer optionalen Benutzerinformation (gefolgt von einem "@"), dem Host und einer optionalen (durch einen Doppelpunkt eingeleiteten) Port-Angabe. Sie folgt auf zwei Schrägstriche ("//") und wird von einem einfachen Schrägstrich ("/"), einem Fragezeichen ("?"), einem Doppelkreuz ("#") oder dem Ende der URI begrenzt. Der Host-Teil kann aus einer IP-Adresse, einer IPv6-Adresse (in eckigen Klammern "[...]") oder einem registrierten Namen bestehen. Gültige Werte sind beispielsweise
de.wikipedia.org*
user@example.com:8080*
192.0.2.16:80* [2001:db8::7]
Die mögliche Angabe eines Passwortes in der Benutzerinformation ("user:password@...") ist überholt und sollte nicht mehr verwendet werden, da URIs oft im Klartext übertragen und protokolliert werden. Gleiches gilt für vertrauliche Benutzernamen.
Path
Der Pfad enthält – meist hierarchisch organisierte – Angaben, die zusammen mit dem Abfrageteil eine Ressource identifizieren. Falls eine authority angegeben wird, muss er mit einem Schrägstrich ("/") beginnen, andernfalls darf er nicht mit einem doppelten Schrägstrich ("//") beginnen. Er wird von einem Fragezeichen ("?"), einem Doppelkreuz ("#") oder dem Ende des URI begrenzt. Gültige Pfade sind beispielsweise
/over/there* example:animal:ferret:nose
Query
Der Abfrageteil (Query String) beinhaltet nicht-hierarchische Daten zur Identifizierung von Ressourcen. Er wird mit einem Fragezeichen ("?") eingeleitet und von einem Doppelkreuz ("#") oder dem Ende des URI begrenzt. Eine gültige Abfrage ist beispielsweise
* ?title=Uniform_Resource_Identifier&action=submit
Fragment
fragment referenziert einen Teil innerhalb einer Ressource. Es wird von einem Doppelkreuz ("#") eingeleitet. Ein Beispiel dafür ist der Anker in HTML.
Beispiele
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
URI-Referenzen
Oft verwenden Anwendungen nicht den vollständigen URI, sondern eine abgekürzte Syntax, beispielsweise um Platz zu sparen oder den einfachen Umzug auf andere Server zu ermöglichen. Manche URI-Schemata begrenzen in ihrer Definition zudem die Syntax auf eine bestimmte Form. Unter dem Begriff der URI-Referenzen werden unterschiedliche Schreibweisen zusammengefasst.
Absolute URI
Ein absoluter URI besteht mindestens aus scheme und hier-part (also einer authority und/oder einem path). Beispiele sind
http://de.wikipedia.org * file://localhost/var/spool/dump.bin
Relative Referenz
Wenn eine URI-Referenz nicht mit einem scheme beginnt, wird angenommen, dass es sich um eine relative Referenz handelt. Die Auflösung einer relativen Referenz zu einem absoluten URI erfolgt abhängig vom Kontext nach standardisierten Regeln. Eine relative Referenz besteht aus einem path sowie optional aus query und fragment. Es werden drei Arten von relativen Referenzen unterschieden:
image.png, ./image.png und ../images/image.png.* Beginnt der Pfad mit einem einzelnen Schrägstrich ("
/"), handelt es sich um eine absolute Pfad-Referenz.* Beginnt der Pfad mit doppelten Schrägstrichen ("//"), handelt es sich um eine Netzwerk-Pfad-Referenz.
Referenz innerhalb desselben Dokumentes
URI-Referenzen können auf dasselbe Dokument verweisen, dessen Teil sie sind. Die häufigste Anwendung ist das Doppelkreuz ("#"), gefolgt von einem Fragment-Bezeichner.
Suffix-Referenzen
Weit verbreitet ist die Angabe von URI-Referenzen ohne Bezeichnung des Protokolls, etwa www.wikipedia.de. Unter der Annahme, dass sich aus dem Suffix (im Beispiel www, DNS-Namen werden von rechts nach links aufgebaut) auf das Protokoll (hier http) schließen lässt, funktioniert die Auflösung solcher Referenzen. Allerdings ist diese Auflösung von entsprechenden Annahmen und zudem von der jeweiligen Software abhängig. Deshalb sollten Suffix-Referenzen vermieden werden.
Schemata
Unter anderem sind folgende Schemata definiert:
{| class="wikitable"! Schema !! Beschreibung
|-
| data || Data-URL: direkt eingebettete Daten
|-
| file || Dateien im lokalen Dateisystem
|-
| ftp || File Transfer Protocol
|-
| geo || Geografische Koordinaten
|-
| gopher || Gopher
|-
| http || Hypertext Transfer Protocol
|-
| ldap || Lightweight Directory Access Protocol
|-
| mailto || E-Mail-Adresse
|-
| news || Newsgroup oder Newsartikel
|-
| pop || Mailboxzugriff über POP3
|-
| rsync || Synchronisation von Daten mit rsync
|-
| sip || SIP-gestützter Sitzungsaufbau, z. B. für IP-Telefonie
|-
| tel || Telefonnummer
|-
| urn || Uniform Resource Names (URNs)
|-
| ws || rowspan="2" | WebSocket
|-
| wss
|-
| xmpp || Extensible Messaging and Presence Protocol für Jabber Identifier
|}
Auf der Website der IANA befindet sich eine vollständige Liste der offiziellen Schemata.[http://www.iana.org/assignments/uri-schemes.html Vollständige Liste der offiziellen Schemata] (englischsprachig)
Daneben haben sich einige inoffizielle Schemata für einzelne Anwendungen oder gängige Protokolle etabliert:
{| class="wikitable"! Schema !! Beschreibung
|-
|-
| about || browserinterne Informationenhttp://tools.ietf.org/html/draft-holsten-about-uri-scheme-06
|-
| afp || Apple Filing Protocolhttp://tools.ietf.org/html/draft-ietf-svrloc-afp-service-01
|-
| callto || Telefonnummern (u.a. Skype und NetMeeting)
|-
| coffee || Hyper Text Coffee Pot Control Protocol
|-
| daap || Digital Audio Access Protocol
|-
| doi || Digital Object Identifier
|-
| ed2k || ED2k-URI-Schema von eDonkey2000/Kademlia
|-
| feed || RSS-Feeds
|-
| finger || Fingerhttp://tools.ietf.org/html/draft-ietf-uri-url-finger-02
|-
| fish || Files transferred over Shell protocol
|-
| git || Git
|-
| irc/ircs || Internet Relay Chathttp://tools.ietf.org/html/draft-butcher-irc-url-04
|-
| javascript || Ausführung von JavaScript-Codehttp://tools.ietf.org/html/draft-hoehrmann-javascript-scheme-03
|-
| lastfm || Last.fm
|-
| magnet || Magnet-Link
|-
| mms || Microsoft Media Server
|-
| rtmp || Real Time Messaging Protocol
|-
| sftp || SSH File Transfer Protocolhttp://tools.ietf.org/html/draft-ietf-secsh-scp-sftp-ssh-uri-04
|-
| skype || Telefonnummern (nur Skype)
|-
| smb || Server Message Blockhttp://tools.ietf.org/html/draft-crhertel-smb-url-12
|-
| ssh || Secure Shell
|-
| svn/svn+ssh || Apache Subversion
|-
| view-source || Quelltextanzeige für eine Webseitehttp://msdn.microsoft.com/en-us/library/aa767742.aspx
|-
| webcal || iCalendar
|-
| wyciwyg || What You Cache Is What You Get, Firefox-interne Anzeige für die Darstellung gecachter Inhalte
|-
| ymsgr || Yahoo Messenger
|}
URIs, URLs und URNs
miniatur|hochkant=0.8|[[Mengendiagramm|Venn-Diagramm für URI, URL und URN]]
Es werden folgende Unterarten von URIs unterschieden:
; Uniform Resource Locators (URLs): benennen eine Ressource über ihren primären Zugriffsmechanismus wie zum Beispiel http oder ftp. Danach folgt die Bezeichnung des Ortes (engl. location) der Ressource im Netz – meistens der Domain-Name. URLs waren ursprünglich die einzige Art von URIs, weshalb der Begriff URL oft gleichbedeutend mit URI verwendet wird.
; Uniform Resource Names (URNs)
: mit dem URI-Schema urn identifizieren eine Ressource mittels eines vorhandenen oder frei zu vergebenden Namens, z. B. urn:isbn oder urn:sha1.
Ursprünglich sollte jeder URI in eine dieser beiden Klassen (oder weitere noch zu definierende) eingeteilt werden. Diese strenge Aufteilung wurde jedoch aufgegeben, da sie unnötig ist und einige Schemata (wie data oder das früher den URLs zugeordnete mailto) in keine der beiden Klassen passen.
Siehe auch
* Digital Object Identifier (DOI)
* Persistent Uniform Resource Locator (PURL)
* Internationalized Resource Identifier (IRI)
Weblinks
* RFC 1630 – Universal Resource Identifiers in WWW (Status: INFORMATIONAL)
* RFC 3986 – Uniform Resource Identifier (URI): Generic Syntax (Status: STANDARD)
* [http://www.w3.org/Addressing/ Web Naming and Addressing] (englisch)
* [http://ftp.ics.uci.edu/pub/ietf/uri/ IETF URI Working Group] (englisch)
* [http://www.iana.org/assignments/uri-schemes.html Uniform Resource Identifer (URI) Schemes] - offizielle Liste der URI-Schemata bei der IANA
Einzelnachweise
ar:معرف الموارد الموحد
ca:Uniform Resource Identifier
cs:Uniform Resource Identifier
Uniform resource identifier
es:Uniform Resource Identifier
eu:URI
fa:شناساگر یکنواخت منبع
fi:URI
Uniform Resource Identifier
gl:URI
he:URI
hu:URI
id:Pengidentifikasi Sumber Seragam
it:Uniform Resource Identifier
ja:Uniform Resource Identifier
ko:통합 자원 식별자
lb:Uniform Resource Identifier
lv:URI
ml:യൂണിഫോം റിസോഴ്സ് ഐഡന്റിഫയർ
nl:Uniform Resource Identifier
no:Uniform Resource Identifier
pl:Uniform Resource Identifier
pt:URI
ro:Identificator uniform de resurse
ru:URI
simple:Uniform Resource Identifier
sk:Uniform Resource Identifier
sv:Uniform Resource Identifier
uk:Уніфікований ідентифікатор ресурсів
ur:یکساں وسیلی شناختگر
vi:URI
zh:统一资源标志符
zh-yue:劃一資源記認
Text und Bilder dieses Beitrags stammen aus dem Artikel Uniform Resource Identifier der freien Enzyklopädie Wikipedia und stehen unter der GNU Free Documentation License. Die Liste der Autoren ist in der Wikipedia unter dieser Seite verfügbar, der Original-Artikel lässt sich hier bearbeiten.