====== E-Book-Indexing ======
===== Stand der Dinge =====
Schaut man sich E-Books mit Indexen an, so fallen bei den Indexen folgende Dinge auf:
*Anscheinend wird die Struktur des Index, wie sie für die Printausgabe angelegt wurde, beibehalten, aber da die Seitenzahlen keine Rolle mehr spielen, werden sie ersetzt durch Textstrings. Diese Textstrings scheinen die Namen von Textmarken zu sein. Allerdings scheinen die angezeigten Namen nur Platzhalter für die dahinterliegenden Textmarkenlinks zu sein. Denn die Links müssen ja eindeutig sein, während die angezeigten Namen beliebig oft wiederholt werden können. Ein Beispiel für dieses Vorgehen ist das Kindle-Buch "FileMaker 11 - Missing Manual".
Eine typische Registerstelle in diesem Werk sieht folgendermaßen aus:
XML files, {XML export}, {XML export}, {XML examples}
examples of, {XL examples}
exporting to, {XML export}
exporting from, {XML export}
Zur besseren Erkennung sind hier die Links in geschweifte Klammern gesetzt.
*Die Frage kommt sofort auf, wer hier die Namen der Links vergeben hat! Die Namen sind absolut nichtssagend, denn obwohl sie zu jeweils anderen Stellen führen, lauten sie mehrfach gleich! Im gedruckten Register würde man anhand der unterschiedlichen Seitenzahlen wenigstens erkennen, dass es sich um verschiedene Fundstellen handelt, aber hier im E-Book-Register ist der Leser absolut alleingelassen und muss durch Ausprobieren herausfinden, welche die passende Fundstelle ist. Im Grund wird dadurch der Sinn des Registers ad absurdum geführt. Denn der Index bietet weniger als eine Volltextsuche! Bei der Volltextsuche in einem E-Book werden die Fundstelloen aufgelistet und man sieht wie bei der Erweiterten Suche in Acrobat Text um die Fundstelle herum und kann so entscheiden, welches die passende Fundstelle ist. Fazit: So, wie in diesem Buch darf ein Index für ein E-Book auf keinen Fall sein!!!
*Es fällt bei diesem Index außerdem auf, dass er vom äußeren Format her absolut leserunfreundlich ist: Die Textmarkennamen sind einfach hintereinander aufgelistet, an manchen Stellen über mehrere Zeilen hinweg, ohne jede Struktur. Fazit: Wenn anstatt der Seitenzahlen Textmarkennamen genannt werden, so sollte unbedingt - noch stärker als bei einem gedruckten Index - mit Einzügen gearbeitet werden!
*Frage: Muss es wirklich darauf hinauslaufen, dass die Seitenzahlen einfach durch Textstrings ersetzt werden? Antwort: Nein!
==== Einige Regeln für Indexe zu E-Books: ====
*Es sollte keinen Haupteintrag geben, der direkt eigene Locators hat; m.a.W.: man sollte immer Untereinträge bilden! Locatorverweise darf es nur von einem Untereintrag aus geben.
*der Name eines Locatorverweises (also der Name der für den dahinterliegenden Textmarkenlink vergeben wird) sollte immer die Umgebung beschreiben, sollte also 1. nicht einfach den Namen des Untereintrags wiederholen und 2. nach dem Context-Verfahren gebildet werden (also z.B. einen Begriff aus der Überschrift des Abschnitts enthalten, zu dem die Fundstelle gehört).
*wenn ein Untereintrag nur einen Locatorverweis hat, dann sollte der Untereintrag selbst als Name eines dahinterliegenden Textmarkenlinks dienen!
Bei der Untersuchung der Fundstellen im obigen Beispiel kommt heraus, dass die gleichbenannten Locators zu Stellen im Text führen, die zwar nicht identisch sind, aber nahe beieinanderliegen; eventuell sind die zugehörigen Textmarken im gedruckten Werk auf unterschiedlichen Seiten gewesen, aber im E-Book wird nur eine diffuse Umgebung um die eigentlich richtige Stelle herum angesprungen, weswegen man den Eindruck hat, fast an derselben Stelle zu landen. Ergebnis: Das Register ist dermaßen redundant, dass es schon weh tut. Es hätte eigentlich folgendermaßen aussehen müssen:
XML files
{examples of}
{exporting to, exporting from}
In der letzten Zeile sind die beiden Begriffe "exporting to" und "exporting from" zu einem einzigen Link zusammengefasst worden, denn beide führen zur selben Stelle, aber dem Leser wird auf diese Weise deutlich, dass es an dieser Stelle eben um beides geht. Allerdings kann man darüber streiten, ob es nicht sinnvoller wäre, beide Locators als separate Links aufzuführen, also:
XML files
{examples of}
{exporting from}
{exporting to}
Wahrscheinlich ist die zweite Variante tatsächlich besser.
Die Frage lautet, weshalb es bei der Erzeugung des Index für das obige E-Book zu solch eklatanten Fehlern gekommen ist. Es muss einen technischen Grund geben. Wahrscheinlich ist die Umsetzung des Index für die Printausgabe in den Index für das E-Book vollautomatisch gelaufen, und zwar nach einem primitiven Algorithmus.
===== Ideen für gute E-Book-Indexe =====
Während die obigen Punkte aus der Analyse eines Beispiel-Index stammen, sollen hier ein paar grundsätzliche Überlegungen beschrieben werden.
Sämtliche Überlegungen gelten für EPUB-2. Sobald EPUB-3 zum Standard auf den meisten Geräten geworden ist, erübrigen sich sehr wahrscheinlich etliche der Ideen, weil sie durch bessere Techniken ersetzt werden.
==== IDPF-Standard zum Indexing ====
https://idpf.org/epub/idx/epub-indexes.html
==== Verlinkungen ====
Eine der wichtigsten Fragen lautet: Wohin sollen Links in einem E-Book führen? Da es keine festen Seiten gibt, hat es keinen Sinn, aus einer evtl. vorliegenden ursprünglichen Seitenzahl einen Link auf die ursprüngliche Seite zu setzen in der Hoffnung, im E-Book würde man nicht zu weit weg von der eigentlichen Zielstelle landen.
Genau diesen Effekt, nämlich relativ weit weg von der Wunschstelle zu landen, findet man aber bei sehr vielen E-Book-Registern. Daraus kann umgekehrt nur geschlossen werden, dass genauso vorgegangen wurde, wie vorstehend beschrieben: die ursprüngliche **Seite** wurde **als Sprungziel** verwendet und danach wurde die Seitenzahl im Index gelöscht; der Link liegt auf dem Eintragstext.
|**InDesign-Indexe:** Bei E-Book-Indexen, die mit InDesign erstellt wurden, werden immer die Seitenzahlen (bei Seitenbereichsangaben nur die Anfangsseitenzahlen) verlinkt. Und zwar zeigt sich, dass InDesign analog zu Acrobat immer an den Anfang (oder die Mitte?) der jeweiligen Seite verlinkt. Das heißt aber, es gibt keinen Link zur eigentlichen Fundstelle, sondern eben nur zur Seite allgemein. Problem: Mit Seite ist immer die Druckseite gemeint, die es aber auf dem E-Book-Reader nicht mehr gibt! Was muss man als Leser nun machen: vor- oder zurückblättern?, wenn vorblättern: um wieviele E-Book-Seiten?|
Wie kann das Problem gelöst werden? Antwort: Die Verlinkung muss komplett anders vorgenommen werden. Es darf nicht auf Seiten verlinkt werden, sondern das** Linkziel muss die spezifische Textstelle sein**, an der sich das Stichwort aus dem Indexeintrag befindet.
Technisch gesehen hat ein Linkanker immer die Syntax
wobei //n// eine Laufnummer ist, durch die die //id// des Ankers eindeutig wird: Anker_01, Anker_02 usw. Die id könnte aber auch auf andere Weise eindeutig gemacht werden. Sie kann zum Beispiel dem Namen einer Textmarke entsprechen, die in Word (oder einem anderen Quellprogramm) vergeben wurde. Textmarken müssen immer eindeutig sein.
Die restliche Syntax des Ankers erklärt sich von selbst.
Dient Word als Quellprogramm, können per Makro **vor alle XE-Feldern eindeutige Textmarken** gesetzt werden.
|**Word-Textmarken** können in der Hyperlink-Funktion von Word als Zielanker verwendet werden. Darüber hinaus werden Textmarken in der Form in HTML umgewandelt; diese Anker werden 1:1 an EPUB übergeben. Damit sie auch im EPUB als Zielanker für Verlinkungen dienen können, muss im EPUB-Programm per Suchen/Ersetzen die Syntax erzeugt werden; es ist also nur "name" gegen "id" auszutasuchen!|
Zum Erzeugen der Textmarken in Word sind sechs Schritte nötig:
- Vor jedem XE-Feld wird ein Namenstext eingefügt, der aus Buchstaben und dem SEQ-Feld besteht, also z. B. "index_{ SEQ "index" \n }". Im ersten Namenstext muss manuell der Schalter \r 1 in das SEQ-Feld eingetragen werden: "index_{ SEQ "index" \r 1 }". Dies dient als Startwert für die Nummerierung.
- Nun wird das gesamte Dokument markiert und per F9 werden die Felder aktualisiert. Jetzt sind alle Namenstexte eindeutig.
- Jetzt werden alle SEQ-Felder fixiert (also in normalen Text umgewandelt).
- Nun vor den Namenstexten Textmarken erzeugt, deren Namen mit den Namenstexten identisch sind. Wichtig: die Textmarken dürfen keinen Textbereich umfassen, sondern müssen für sich allein stehen: ][
- Jetzt werden die Namenstexte in der letzten Indexebene aller XE-Felder eingebaut (also immer Doppelpunkt gefolgt vom jeweiligen Namenstext).
- Im letzten Schritt werden die Namenstexte vor den XE-Feldern gelöscht. Vor jedem XE-Feld steht aber eine Textmarke.
Damit alles effektiv abläuft, sollten die einzelnen Makros von einem übergeordneten Gesamtmakro aus aufgrufen werden.
Damit ist zweierlei erreicht:
- Alle Zielanker sind erzeugt (die Textmarken vor den XE-Feldern).
- Die Information, wohin später verlinkt werden soll, liegt bei jedem Eintrag vor: nämlich zur Textmarke mit dem jeweiligen (eindeutigen) Namen.
=== Schlagworte ===
Hier tut sich gleich eine weitere Frage auf: **Was ist mit Schlagworten?** Schlagworte sind Begriffe, die einem Text zugewiesen werden; sie tauchen so geschrieben im Text nicht auf. Wohin soll also ein Link gehen? Anders ist die Situation bei Stichworten, denn ihr Kennzeichen ist gerade, genauso geschrieben im Text vorzukommen.
Aus meiner Sicht muss die Verwendung von Schlagworten grundsätzlich überdacht werden. Was ist z. B. mit Texten, die keine "vernünftigen" Stichworte als "Anker" haben und die nur durch Schlagworte prägnant beschrieben werden können? In einem gedruckten Werk wird man vom Register zu einer bestimmten Seite geführt und kann sich relativ rasch ein Bild davon machen, um was es auf der Seit geht. Mit anderen Worten, man kann gut nachvollziehen, weshalb die Seite auf diese Weise und nicht anders verschlagwortet wurde. Bei einem E-Book ist die Situation aber vollkommen anders. Es ergeben sich gleich mehrere Fragen:
*Soll auf den Anfang der ursprünglichen Seite, die Mitte oder den Beginn eine bewusst vergebenen Textmarke verlinkt werden? Antwort: am besten auf den Beginn einer **Textmarke**. Gut wäre es, wenn - was bei EPUB3 möglich ist - der gesamte Bereich der Textmarke irgendwie hervorgehoben würde, damit man weiß, für welchen Bereich das Schlagwort vergeben wurde.
*Wie soll der **"Anker" des Ziels technisch ausgeführt** werden? Bei Begriffen, die mit Überschriften zusammenhängen, kann das Kennzeichen "Überschrift", mit anderen Worten die Überschrift-Formatvorlage als Anker dienen. Bei Schlagworten, die nichts mit einer Überschrift zu tun haben, sondern ganz allgemein eine Textpassage beschreiben, muss der Anker an anderen Merkmalen festgemacht werden. Sinnvoll ist - wie vorstehen bereits beschrieben - nur die **Verankerung an einer Textmarke**.
***E-Book-Verlinkungen** scheinen ähnlich zu funktionieren wie **HTML-Verlinkungen**. D.h., wen man auf einen Link klickt oder tippt, so springt man zur Zielstelle. Allerdings - und das ist anders als in einem Browser - steht die Zielstelle leider nicht automatisch am Anfang der Bildschirmseite. Immerhin: Bei den getesteten Geräten (Kindle E-Ink, Tolino E-Ink) wird beim Sprung vom Index zur Zielstelle die Anzeige so verschoben, dass der **Absatz mit der Fundstelle am Anfang der Bildschirmseite** steht.
*Egal, wie das Ankerproblem technisch gelöst wird, existiert immer noch das Problem, dass man im E-Book am Anfang einer Bildschirmseite landet, deren Ausdehnung von den Abmessungen des Bildschirms, der Größe der gewählten Schrift und dem sich daraus ergebenden dynamischen Zeilenfall abhängt. Steht in der ersten Zeile der Seite nicht der Begriff, den man erwartet, hat man als Nutzer so gut wie keine Chance zu erkennen, weshalb man gerade hierher geführt wurde und man weiß nicht, ob man vor- oder zurückblättern soll, um zum Ziel zu kommen. Wie bereits beschrieben, würde die Markierung des angesprungenen Textmarkenbereichs eine gute Orientierungshilfe sein. \\
Die letzten beiden Punkte betreffen nicht nur Schlagworte, sondern auch Stichworte. Es handelt sich um Grundmerkmale von Verlinkungen.
\\
=== Einsatz von Textmarken ===
Aus dem Vorstehenden geht hervor, dass beim Einsatz von Schlagworten (also Begriffen, die so geschrieben nicht im Text vorkommen), Textmarken als Ziel der Verlinkung genommen werden sollten. Der Leser landet dann immer am Beginn der Textmarke und kann zumindest erwarten, dass die folgenden Absätze etwas mit dem Schlagwort zu tun haben.
=== Seitenbereichsangaben ===
Seitenbereichsangaben, also Angaben wie 201-203, lassen sich nicht vernünftig in EPUB umsetzen.
Man könnte zwar daran denken, den Bereich komplett hervorzuheben, aber das bringt dem Leser nicht viel, weil der Druckseitenbereich 201-203 auf dem E-Book-Reader abhängig von den gewählten Anzeigevoreinstellungen über viele (u. U. 10 oder mehr) Bildschirmseiten laufen kann. Bereits nach den ersten Blättern-Aktionen weiß man als Leser nicht mehr, wo innerhalb des hervorgehobenen Bereichs man sich befindet.
Aus meiner Sicht wäre es besser, den Leser immer nur an den Beginn des Bereichs zu führen und ihm zu überlassen, wie weit er blättern möchte. Eine Hervorhebung ist nicht nötig, weil - wie vorstehend beschrieben - eher irritierend.
|Eine Hervorhebung ist aus meiner Sicht nur sinnvoll, wenn es sich beim Indexbegriff um ein Schlagwort handelt und der Locataor nur aus einem einfachen Seitenverweis besteht. Siehe oben.|
==== Bereichsangaben: die Rückkehr von f und ff ====
Eine Konsequenz ist, dass Bereichansangaben, die im Druckbereich eines der Qualitätskennzeichen von Registern sind, bei E-Books keinen Sinn mehr haben. Denn für einen Bereich bei einem E-Book gilt:
*er ist nicht setzbar
*seine Ausdehnung (gemessen in der Anzahl von Bildschirmseiten) wäre vollkommen abhängig vom dynamischen Text- und Seitenaufbau.
Selbst wenn man von Seiten-Bereichen wegginge hin zu Bereichen, die über Absätze definiert wären, könnte das Phänomen, beim Sprung zu einem Bereich immer an seinem Anfang zu landen, ohne zu wissen, über wie viele Bildschirmseiten er sich erstreckt, nicht umgangen werden. Besser wäre es daher, beim Eintrag lediglich einen Hinweis auf die besondere Bedeutung des Begriffs zu geben (z. B. Hervorhebung durch Fettschrift, farbige Schrift oder Schrifthinterlegung oder zurück zum guten alten f und ff!) und somit von vornherein nur den Sprung zu einer bestimmten Stelle im Auge zu haben.
Die f- und ff-Angaben würden sich natürlich nicht auf Seiten beziehen, sondern auf die bei E-Books einzig mögliche Einheit **Absatz**.
==== Nutzung von Merkmalen ====
Aus dem Problem des nicht zielgerechten Springens vom E-Book-Index zum Text ergibt sich die Überlegung, jeden Index-Eintrag mit Zusatzinfos zu versehen, die es dem Leser erleichtern, nach dem Sprung die Orientierung zu finden. Mann könnte, wie es ja auch bei gedruckten Indexen manchmal gehandhabt wird, bei jedem Eintrag Merkmale mitführen, wie z.B. B für Bild oder T für Tabellentext (oder auch f. und ff., siehe vorstehenden Abschnitt). Im Grunde könnten ähnliche Merkmale genommen werden, wie sei bei QuIndex zum Einsatz kommen:
*u1: Überschrift 1. Ordnung
*u2: Überschrift 2. Ordnung
*u3: Überschrift 3. Ordnung
*u4: Überschrift 4. Ordnung
*t: Text
*kt: KastenText
*tt: Tabellentext
*bu: Bild oder Bildunterschrift
Neue, speziell für E-Books einzusetzende Merkmale wären die f- und ff-Kennzeichnung.
Praxistests zeigen, dass die feine Unterteilung der Überschrifthierarchien überflüssig ist, denn wenn man auf dem Reader auf einer Seite landet und dort eine Überschrift (oder sogar mehrere) sieht, kann man mit der Information, zu welcher Überschriftordnung die Zielstelle gehört, nicht viel anfangen. Dagegen ist die Info sehr hilfreich, dass die Zielstelle grundsätzlich eine Überschrift ist und nicht der übliche Text.
**D.h., die folgenden Merkmale sollten verwendet werden:**
*u: Überschrift (Ordnung egal)
*t: Text
*kt: KastenText
*tt: Tabellentext
*b: Bild oder Bildunterschrift
*f und ff
f und ff wären zusätzlich zu den anderen Merkmalen zu verwenden!
*also z.B. oder
**f stünde würde für einen weiteren Absatz, ff für zwei oder mehr weitere Absätze.**
Die Merkmale müssten bei der Festlegung der Indexeinträge in Word gleich miteingegeben werden, und zwar am besten in eckigen oder spitzen Klammern.
===== Mögliche Spezialwege =====
==== Inhaltsverzeichnisse: ihre besondere Technik ====
Was bei fast allen E-Books mitgeliefert wird, ist das Inhaltsverzeichnis. Die **Verlinkung von Inhaltsverzeichnissen** scheint eine der ersten und wichtigsten Anforderungen an E-Books gewesen zu sein und ist technisch gesehen ein Standardverfahren. Die Frage lautet: kann dieses Standardverfahren auch für die Umsetzung von Indexen genutzt werden? Wie wir unten sehen werden, geht genau das!\\
Eine wichtige Konsequenz aus der Nutzung von Inhaltsverzeichnistechniken ist, dass ein Index optisch ganz anders aussehen müsste, als wir es vom Gedruckten her gewohnt sind: jeder Indexeintrag müsste die komplette Information enthalten, d.h. vor allem, dass das Hauptthema immer mitgeführt werden müsste. Es würde dann auch nichts bringen, wenn mit Einzügen gearbeitet würde! Jeder Eintrag müsste linksbündig angeordnet sein. Das käme außerdem der Anforderung entgegen, die sich aus den Abmessungen von E-Book-Reader-Displays ergibt: Auf diesen kleinen Bildschirmen muss jeder Raum ausgenutzt werden, Einzüge würden einen Index vollkommen nutzlos werden lassen, insbesondere dann, wenn eine große Schrift eingestellt ist. Auch die Orientierung im Index kann nur dadurch sichergestellt werden, dass **in jedem Eintrag das Hauptthema mitgeführt** wird.
==== Lösung des Indexproblems durch Nutzung der Suchfunktion ====
Selbst wenn die Links aus dem Index heraus in der oben angegebenen Weise gesetzt sind und jeder Indexeintrag die komplette Information enthält (also das Hauptthema mitgeführt wird), besteht immer noch das Problem, dass man erst einmal zum Index gehen muss, um von hier den Sprung zum Ziel auszuführen. Und wenn man feststellt, dass es die falsche Stelle war oder dass man gerne zum selben Thema noch eine andere Stelle aufsuchen möchte, muss man wieder zum Index zurückgehen, um einen weiteren Sprung ausführen zu können. Was heißt "zurückgehen"? Nichts anderes, als zum Index zu Blättern oder mit die "Gehezu"-Funktion zu verwenden. Das ist allerdings recht mühsam und nutzt die Möglichkeiten des Mediums E-Book nicht aus. Eines der wesentlichen Merkmale aller digitalen Medien ist die Suchfunktion, die im Grunde so arbeitet wie die entsprechende Google-Funktion: man ruft die Suche auf, gibt einen Begriff ein, schickt die Suche ab und bekommt eine Liste von Fundstellen präsentiert.
\\
Ich möchte behaupten: Nur wenn der Index voll und ganz in die vorgegebene Technik des Kindle- und EPUB-Formats integriert wird, wird er von den Anwendern genutzt. Dazu muss der Index in die Suchfunktion, die auf jedem Reader zur Verfügung steht, "eingebettet" sein.\\
Der Index ist für die Suchfunktion ganz normaler Text, der wie auch das Inhaltsverzeichnis, bei der Suche mit abgedeckt wird. Das heißt, in der Fundliste sind auch Indexeinträge enthalten. Das Entscheidende: die Indexeinträge müssen als solche erkennbar sein! Dazu muss ihnen bereits bei der Indexerstellung ein Merkmal verpasst werden. Eine Möglichkeit bestünde zum Beispiel darin, **jeden Eintrag mit einem Vorsatz wie "ind#" oder auch nur "i#" zu versehen** würde.
**Vorteile:**
*Man könnte nach einer allgemein abgeschickten Suche in der Fundliste sofort alle Indexeinträge von anderen Fundstellen unterscheiden.
*Man könnte die Suche von vornherein auf den Index einschränken, indem man den Vorsatz i# in die Suche mit aufnimmt.
In jedem Fall würde man durch Antippen einer Index-bezogenen Fundstelle von der Fundliste aus im Index landen. Und wenn man dann hier den Begriff antippt, würde der Sprung zum eigentlichen Ziel im Text erfolgen. Bestünde der Wunsch, eine andere Stelle zum selben Thema anzuschauen, bräuchte nur wieder die Suche aufgerufen zu werden. Die Fundliste wäre sofort präsent und man könnte entscheiden, ob man z.B. einen Indexbegriff mit einem anderen Unterthema als Sprungquelle verwenden möchte. Man würde erneut im Index landen und von dort aus den Sprung zum neuen Ziel ausführen.
**Nachteile:** Praxistests zeigen, dass ein solcher Index
*kaum gelesen werden kann, weil er viel zu unruhig ist,
*technisch ohne allzu großen Aufwand nur zu realisieren ist, indem man den Vorsatz (#i oder was auch immer) bereits in die Indexmarken aufnimmt. In Word oder einem Layoutprogramm könnte man die Sortierung vorgeben, und wenn das E-Book aus InDesign oder FrameMaker heraus gemacht würde, würde die besondere Sortierung auch an das E-Book übergeben werden; geht man allerdings den Weg von Word nach Jutoh, so wird die besondere Sortierung ignoriert, d.h., es landet alles unter dem Anfangsbuchstaben des Vorsatzes, also alles unter i! Das hat natürlich keinen Sinn.
**Fazit:** Die Kennung der Einträge mit einem Vorsatz kann leider nicht angewandt werden.
===== Technische Erzeugung eines E-Book-Index =====
Wie kann aber aus einem in digitaler Form vorliegenden Index, der für die Printausgabe erstellt wurde, ein vernünftiger Index für das entsprechende E-Book werden? Vernünftig heißt: sowohl funktional als auch optisch ansprechend.
\\
Alles Nähere dazu wird unter **[[:intern:index_links|Index mit HyperLinks]]** beschrieben.\\
===== Aufbereitung eines PDF-Index mit Links =====
Dazu wird das Programm [[http://www.wgv-projects.de/wgv-intrawiki_softwarehilfen/doku.php?id=druckvorstufe:autobookmark|AutoBookmark]], ein Acrobat-Plug-In, verwendet. Einzelheiten sind dort zu finden.