HTML und XHTML

Grundlagen

Was ist HTML und XHTML?

Woher kommt eigentlich HTML?

Spross Dass eine Web-Seite im Grunde genommen ein HTML-Dokument ist, hat sich ja schon rumgesprochen. Aber was ist denn HTML eigentlich? Woher kommt es? Und wer ist dafür zuständig?

Ein wenig Wissen über die Ursprünge des Webs und über seine heutigen Wärter kann nie schaden. Es hilft uns, das Selbstverständnis des Webs zu begreifen, und sagt uns, wem wir vertrauen können, wenn es um neue Web-Technologien geht. Und dieses Vertrauen ist wichtig.

Von ganzen Organisationen, Firmen und Einzelnen werden ungezählte Stunden und riesige Mittel eingesetzt, um Web-basierende Systeme ins Leben zu rufen und am Laufen zu halten. Dieser Aufwand ist aber gefährdet, wenn immer die Möglichkeit besteht, dass die Regeln im laufenden Spiel plötzlich geändert werden. Wenn wir aber heute die Ärmel hochkrempeln und einen Web-Auftritt realisieren, wollen wir eine gewisse Sicherheit, dass der ganze Aufwand für die nächste Zukunft auch Sinn macht und nicht bald alles weggeworfen und wieder neu gebaut werden muss.

Das nötige Vertrauen in die vorhandene Technologie soll daher durch Standards geschaffen werden, durch Richtlinien und Vereinbarungen, wie sie vom World Wide Web Consortium (W3C), der International Standards Organization (ISO) und andern aufgestellt und definiert werden. Genau auf solche Regeln und Bestimmungen stützt sich dieser ganze Kurs.

HTML, und mit ihm das http-Protokoll, wurde am CERN entwickelt, und als Schöpfer gilt allgemein Tim Berners-Lee (der von Insidern auch kurz TimBL genannt wird). Er plante HTML als einfache Markup-Sprache, mit deren Hilfe Wissenschaftler weltweit in der Lage sein sollten, Daten und Wissen auszutauschen. HTML war damals eine reine Struktursprache, es bot keinerlei Möglichkeiten, die optische Darstellung von Texten zu steuern, keine Befehle, um zum Beispiel Text fett oder kursiv zu gestalten (was damals ohnehin noch nicht alle Computer beherrschten). HTML hatte lediglich einige Werkzeuge, die den Inhalt einer Web-Seite beschrieben.

Nun ist man versucht, das als eine Beschränkung der Sprache zu empfinden (und leider setzte sich diese Ansicht eine Zeit lang auch wirklich durch), aber wie wir gleich sehen werden, ist es das nicht. Während einiger Zeit wuchs HTML um einige zusätzliche Funktionen zur Gestaltung von Texten und Anderem, aber das bekam der Sprache nicht gut. Heute ist sie um einiges umfangreicher und komplexer als in ihrer ersten Version, aber man ist auch eifrig dabei, sie von vielen lästigen und unnötigen Schnörkeln zu befreien und manche der früheren vermeintlichen Fortschritte wieder zu entfernen, die von Browser-Firmen und Standardisierungsgremien verbrochen worden sind. Wir werden einige davon in diesem Kurs antreffen.

In den frühen Neunzigern versahen Browser-Hersteller ihre Produkte mit immer mehr Zusatzfunktionen und "Features", in der Hoffnung, die Autoren von Webseiten dazu zu kriegen, Seiten herzustellen, welche diese Sonderfunktionen benützten und die Besucher zwangen, die jeweilige Browser-Marke zu verwenden. Zum Teil zwang dies die Hersteller, in ihren Browsern die erfolgreichen Neuerungen der Konkurrenz nachzubauen, zum Teil versuchten sie um so hartnäckiger, ihren Browsern weitere Sonderfähigkeiten zu verleihen. Letztlich schadete der ganze "Browser-Krieg" dem Web ebenso sehr wie er nützte, denn Seiten, die spezielle Funktionen eines Browsers verwendeten, konnten im Extremfall auf andern Browsern gar nicht mehr wiedergegeben werden, und während die Publisher sich zu Beginn und in der ersten Begeisterung noch gierig auf jede Neuerung gestürzt hatten, wurde ihnen nach und nach schmerzlich bewusst, welchen Mehraufwand sie in Kauf nehmen mussten, um ihre Seiten wirklich einem breiten Publikum zugänglich zu machen, und sie begannen, sich nach geregelten Verhältnissen zu sehnen.

Unterdessen schossen die Neuerungen munter ins Kraut, und da waren keine nennenswerten Autoritäten, die die Evolution etwas unter Kontrolle und die HTML-Sprache vor Verwilderung in Schutz genommen hätten. Ungefähr um 1995 hatte allerdings der Netscape-Browser nahezu ein Markt-Monopol, und das verlangsamte den Wildwuchs ein wenig, so dass Zeit zur Verfügung stand, das Ausmass des Schadens zu besichtigen.

HTML war üppig gewachsen und von einer einfachen und eleganten Sprache, die die Struktur eines Dokumentes beschrieb, zu einem Sammelsurium von Desktop-Publishing- und Multimedia-Tricks geworden, denen keine oder nur sehr ungenaue Regeln zugrunde lagen. Und mit der Dominanz von Netscape bestand die Gefahr, dass eine einzige Firma in fast unkontrollierter Freiheit die HTML-Sprache weiter "verbessern" konnte, ohne dass sichergestellt war, dass das wirklich zum Nutzen der Anwender geschah.

Dass sich in der Folge Microsoft mit dem Internet Explorer als Gegengewicht zu Netscape ins Spiel brachte, hatte überhaupt keine neuen Auswirkungen; die Geschichte wiederholte sich lediglich aufs Neue mit allen Spielarten von Neuerungen und Wildwüchsen und diesmal mit Microsoft als dominantem Gewinner am Ende. Aber noch immer war da kein Standard auszumachen, auf den sich Web Publisher und Browserhersteller hätten verlassen können.

Das World Wide Web Consortium

W3C-Logo Im Oktober 1994 gründete Tim Berners-Lee das World Wide Web Consortium, um das grosse Potential des World Wide Web zu nutzen, indem gemeinsame Protokolle entwickelt werden, die seine Evolution unterstützen und sicherstellen, dass es auch auf den unterschiedlichsten Plattformen sicher betrieben werden kann.

Das W3C hat seither zahlreiche technische Spezifikationen entwickelt, die es als Recommendations (Empfehlungen) bezeichnet. Ins Zuständigkeitsgebiet des W3C fällt heute auch die HTML recommendation sowie etwas, was du vermutlich weniger kennst: die XHTML recommendation.

Übrigens sind weder HTML noch XHTML statische Sprachen. Das W3C arbeitet ständig daran und entwickelt sie weiter. Die letzte Version von HTML war HTML 4.01. Diese Version unternahm den Versuch, das chaotische HTML der Vor-W3C-Zeit zu restrukturieren und mehr mit dem in Übereinstimmung zu bringen, was die letzten 20 Jahre Forschung als Resultat erbracht hatten, wie eine Markup-Sprache zu funktionieren habe.

Wir werden im Verlaufe des Kurses manches Beispiel dafür sehen, wie diese Prinzipien in HTML eingeflossen sind. Hier, im generellen Überblick, möchte ich aber auf ein grundlegendes Prinzip hinweisen, das ich schon angetönt habe: Die Trennung von Inhalt und Darstellung. HTML 4 rät nicht nur entschieden vom Versuch ab, die Darstellung einer Web-Seite mit Hilfe von HTML kontrollieren zu wollen, sondern empfiehlt auch gleichzeitig, wie es denn dann zu machen sei: Mit Style Sheets. Wir werden auch darauf noch zu sprechen kommen.

Der direkte Nachfolger für HTML 4.0 war dann aber zuerst mal nicht HTML5, sondern das vom W3C vorgestellte XHTML 1.0.

Genau genommen hat das W3C auf den übergeordneten Standard XML zurückgegriffen und HTML nochmals neu definiert, und zwar so, dass es ein Subset (man könnte auch sagen: Sonderfall) von XML ist. Damit werden XHTML-Seiten auch für Anwendungen verständlich, die in die XML-Welt gehören, und damit ist einem wesentlichen Aspekt der Zukunft Rechnung getragen: Mit einigen wenigen Änderungen gegenüber dem "herkömmlichen" HTML werden all unsere Seiten zukunftssicher.

Zunächst passierte eine Zeitlang gar nichts, und dann erblickte zur allgemeinen Überraschung HTML5 das Licht der Welt. Gegenwärtig scheint es so, dass die XHTML-Linie nicht ausdrücklich weiter verfolgt wird. XHTML ist aber mit HTML5 völlig kompatibel, und dieser Kurs hält sich denn auch konsequent an die XHTML-Empfehlung.

Homepapa
März 2004

Vorheriger Abschnitt:
Die Enteckung der Langsamkeit

Nächster Abschnitt:
Standards