Benutzer-Werkzeuge

Webseiten-Werkzeuge


ebooks:ebook_indexing

Dies ist eine alte Version des Dokuments!


E-Book-Indexing

Stand der Dinge

Schaut man sich E-Books mit Indexen an, so fallen bei den Indexen folgende Dinge auf:

  • Anscheinend wird die Struktur des Index, wie sie für die Printausgabe angelegt wurde, beibehalten, aber da die Seitenzahlen keine Rolle mehr spielen, werden sie ersetzt durch Textstrings. Diese Textstrings scheinen die Namen von Textmarken zu sein. Allerdings scheinen die angezeigten Namen nur Platzhalter für die dahinterliegenden Textmarkenlinks zu sein. Denn die Links müssen ja eindeutig sein, während die angezeigten Namen beliebig oft wiederholt werden können. Ein Beispiel für dieses Vorgehen ist das Kindle-Buch „FileMaker 11 - Missing Manual“.

Eine typische Registerstelle in diesem Werk sieht folgendermaßen aus:

XML files, {XML export}, {XML export}, {XML examples}
  examples of, {XL examples}
  exporting to, {XML export}
  exporting from, {XML export} 

Zur besseren Erkennung sind hier die Links in geschweifte Klammern gesetzt.

  • Die Frage kommt sofort auf, wer hier die Namen der Links vergeben hat! Die Namen sind absolut nichtssagend, denn obwohl sie zu jeweils anderen Stellen führen, lauten sie mehrfach gleich! Im gedruckten Register würde man anhand der unterschiedlichen Seitenzahlen wenigstens erkennen, dass es sich um verschiedene Fundstellen handelt, aber hier im E-Book-Register ist der Leser absolut alleingelassen und muss durch Ausprobieren herausfinden, welche die passende Fundstelle ist. Im Grund wird dadurch der Sinn des Registers ad absurdum geführt. Denn der Index bietet weniger als eine Volltextsuche! Bei der Volltextsuche in einem E-Book werden die Fundstelloen aufgelistet und man sieht wie bei der Erweiterten Suche in Acrobat Text um die Fundstelle herum und kann so entscheiden, welches die passende Fundstelle ist. Fazit: So, wie in diesem Buch darf ein Index für ein E-Book auf keinen Fall sein!!!
  • Es fällt bei diesem Index außerdem auf, dass er vom äußeren Format her absolut leserunfreundlich ist: Die Textmarkennamen sind einfach hintereinander aufgelistet, an manchen Stellen über mehrere Zeilen hinweg, ohne jede Struktur. Fazit: Wenn anstatt der Seitenzahlen Textmarkennamen genannt werden, so sollte unbedingt - noch stärker als bei einem gedruckten Index - mit Einzügen gearbeitet werden!
  • Frage: Muss es wirklich darauf hinauslaufen, dass die Seitenzahlen einfach durch Textstrings ersetzt werden? Antwort: Nein!

Einige Regeln für Indexe zu E-Books:

  • Es sollte keinen Haupteintrag geben, der direkt eigene Locators hat; m.a.W.: man sollte immer Untereinträge bilden! Locatorverweise darf es nur von einem Untereintrag aus geben.
  • der Name eines Locatorverweises (also der Name der für den dahinterliegenden Textmarkenlink vergeben wird) sollte immer die Umgebung beschreiben, sollte also 1. nicht einfach den Namen des Untereintrags wiederholen und 2. nach dem Context-Verfahren gebildet werden (also z.B. einen Begriff aus der Überschrift des Abschnitts enthalten, zu dem die Fundstelle gehört).
  • wenn ein Untereintrag nur einen Locatorverweis hat, dann sollte der Untereintrag selbst als Name eines dahinterliegenden Textmarkenlinks dienen!

Bei der Untersuchung der Fundstellen im obigen Beispiel kommt heraus, dass die gleichbenannten Locators zu Stellen im Text führen, die zwar nicht identisch sind, aber nahe beieinanderliegen; eventuell sind die zugehörigen Textmarken im gedruckten Werk auf unterschiedlichen Seiten gewesen, aber im E-Book wird nur eine diffuse Umgebung um die eigentlich richtige Stelle herum angesprungen, weswegen man den Eindruck hat, fast an derselben Stelle zu landen. Ergebnis: Das Register ist dermaßen redundant, dass es schon weh tut. Es hätte eigentlich folgendermaßen aussehen müssen:

XML files
  {examples of}
  {exporting to, exporting from} 

In der letzten Zeile sind die beiden Begriffe „exporting to“ und „exporting from“ zu einem einzigen Link zusammengefasst worden, denn beide führen zur selben Stelle, aber dem Leser wird auf diese Weise deutlich, dass es an dieser Stelle eben um beides geht. Allerdings kann man darüber streiten, ob es nicht sinnvoller wäre, beide Locators als separate Links aufzuführen, also:

XML files
  {examples of}
  {exporting from} 
  {exporting to}

Wahrscheinlich ist die zweite Variante tatsächlich besser.

Die Frage lautet, weshalb es bei der Erzeugung des Index für das obige E-Book zu solch eklatanten Fehlern gekommen ist. Es muss einen technischen Grund geben. Wahrscheinlich ist die Umsetzung des Index für die Printausgabe in den Index für das E-Book vollautomatisch gelaufen, und zwar nach einem primitiven Algorithmus.

IDPF-Standard zum Indexing

Ideen für gute E-Book-Indexe

Während die obigen Punkte aus der Analyse eines Beispiel-Index stammen, sollen hier ein paar grundsätzliche Überlegungen beschrieben werden.

Sämtliche Überlegungen gelten für EPUB-2. Sobald EPUB-3 zum Standard auf den meisten Geräten geworden ist, erübrigen sich sehr wahrscheinlich etliche der Ideen, weil sie durch bessere Techniken ersetzt werden.

IDPF-Standard zum Indexing

Verlinkungen

Eine der wichtigsten Fragen lautet: Wohin sollen Links in einem E-Book führen? Da es keine festen Seiten gibt, hat es keinen Sinn, aus einer evtl. vorliegenden ursprünglichen Seitenzahl einen Link auf die ursprüngliche Seite zu setzen in der Hoffnung, im E-Book würde man nicht zu weit weg von der eigentlichen Zielstelle landen.

Genau diesen Effekt, nämlich relativ weit weg von der Wunschstelle zu landen, findet man aber bei sehr vielen E-Book-Registern. Daraus kann umgekehrt nur geschlossen werden, dass genauso vorgegangen wurde, wie vorstehend beschrieben: die ursprüngliche Seite wurde als Sprungziel verwendet und danach wurde die Seitenzahl im Index gelöscht; der Link liegt auf dem Eintragstext.

Wie kann das Problem gelöst werden? Antwort: Die Verlinkung muss komplett anders vorgenommen werden. Es darf nicht auf Seiten verlinkt werden, sondern das Linkziel muss die spezifische Textstelle sein, an der sich das Stichwort aus dem Indexeintrag befindet.

Hier tut sich gleich eine weitere Frage auf: Was ist mit Schlagworten? Schlagworte sind Begriffe, die einem Text zugewiesen werden; sie tauchen so geschrieben im Text nicht auf. Wohin soll also ein Link gehen? Anders ist die Situation bei Stichworten, denn ihr Kennzeichen ist gerade, genauso geschrieben im Text vorzukommen.

Aus meiner Sicht muss die Verwendung von Schlagworten grundsätzlich überdacht werden. Was ist z. B. mit Texten, die keine „vernünftigen“ Stichworte als „Anker“ haben und die nur durch Schlagworte prägnant beschrieben werden können? In einem gedruckten Werk wird man vom Register zu einer bestimmten Seite geführt und kann sich relativ rasch ein Bild davon machen, um was es auf der Seit geht. Mit anderen Worten, man kann gut nachvollziehen, weshalb die Seite auf diese Weise und nicht anders verschlagwortet wurde. Bei einem E-Book ist die Situation aber vollkommen anders. Es ergeben sich gleich mehrere Fragen:

  • soll auf den Anfang der ursprünglichen Seite verlinkt werden oder besser auf die Mitte?
  • wie soll der „Anker“ des Ziels technisch ausgeführt werden? Bei Begriffen, die mit Überschriften zusammenhängen, kann das Kennzeichen „Überschrift“, mit anderen Worten die Überschrift-Formatvorlage als Anker dienen. Bei Schlagworten, die nichts mit einer Überschrift zu tun haben, sondern ganz allgemein eine Textpassage beschreiben, muss der Anker an anderen Merkmalen festgemacht werden. Nur: woran?
  • E-Book-Verlinkungen scheinen ähnlich zu funktionieren wie HTML-Verlinkungen. D.h., wen man auf einen Link klickt oder tippt, so springt man zur Zielstelle. Allerdings - und das ist anders als in einem Browser - steht die Zielstelle leider nicht automatisch am Anfang der Bildschirmseite. Immerhin: Bei den getesteten Geräten (Kindle E-Ink, Tolino E-Ink) wird beim Sprung vom Index zur Zielstelle die Anzeige so verschoben, dass der Absatz mit der Fundstelle am Anfang der Bildschirmseite steht.
  • Egal, wie das Ankerproblem technisch gelöst wird, existiert immer noch das Problem, dass man im E-Book am Anfang einer Seite landet, deren Ausdehnung von der Bildschirmgröße, der Größe der gewählten Schrift und dem sich daraus ergebenden dynamischen Zeilenfall abhängt. Steht in der ersten Zeile der Seite nicht der Begriff, den man erwartet, hat man als Nutzer so gut wie keine Chance zu erkennen, weshalb man gerade hierher geführt wurde und man weiß nicht, ob man vor- oder zurückblättern soll, um zum Ziel zu kommen.

Die letzten beiden Punkte betreffen nicht nur Schlagworte, sondern auch Stichworte. Es handelt sich um Grundmerkmale von Verlinkungen.

Eine Möglichkeit, das Schlagwortproblem zu lösen, könnte darin bestehen, die Schlagworte, die sich im Index befinden, als Namen von Lesezeichen in den Kindle- oder EPUB-Text aufzunehmen. Landet man nun auf einer Seite, deren erste Zeile nicht den gesuchten Begriff enthält, so sähe man, dass ein Lesezeichen gesetzt ist und könnte sich den Inhalt des Lesezeichens anzeigen lassen. Voraussetzung für das Schlagwort-Lesezeichen-Verfahren ist aber, dass es technisch möglich ist, einem E-Book im Kindle-, oder EPUB-Format von vornherein Lesezeichen mitzugeben. Ich kenne bisher nur E-Books ohne mitgelieferte Lesezeichen (der Leser muss Lesezeichen, wenn er denn welche haben möchte, immer selber setzen).

Kann das Grundproblem der Verlinkungen, nämlich dass das Ergebnis einer Suche oder eines Sprungs immer am Anfang einer Bildschirmseite steht, gelöst werden? Muss es überhaupt gelöst werden? Welche Konsequenzen ergeben sich aus dieser Technik?

Bereichsangaben: die Rückkehr von f und ff

Eine Konsequenz ist, dass Bereichansangaben, die im Druckbereich eines der Qualitätskennzeichen von Registern sind, bei E-Books keinen Sinn mehr haben. Denn für einen Bereich bei einem E-Book gilt:

  • er ist nicht setzbar
  • seine Ausdehnung (gemessen in der Anzahl von Bildschirmseiten) wäre vollkommen abhängig vom dynamischen Text- und Seitenaufbau.

Selbst wenn man von Seiten-Bereichen wegginge hin zu Bereichen, die über Absätze definiert wären, könnte das Phänomen, beim Sprung zu einem Bereich immer an seinem Anfang zu landen, ohne zu wissen, über wie viele Bildschirmseiten er sich erstreckt, nicht umgangen werden. Besser wäre es daher, beim Eintrag lediglich einen Hinweis auf die besondere Bedeutung des Begriffs zu geben (z. B. Hervorhebung durch Fettschrift, farbige Schrift oder Schrifthinterlegung oder zurück zum guten alten f und ff!) und somit von vornherein nur den Sprung zu einer bestimmten Stelle im Auge zu haben.

Die f- und ff-Angaben würden sich natürlich nicht auf Seiten beziehen, sondern auf die bei E-Books einzig mögliche Einheit Absatz.

Nutzung von Merkmalen

Aus dem Problem des nicht zielgerechten Springens vom E-Book-Index zum Text ergibt sich die Überlegung, jeden Index-Eintrag mit Zusatzinfos zu versehen, die es dem Leser erleichtern, nach dem Sprung die Orientierung zu finden. Mann könnte, wie es ja auch bei gedruckten Indexen manchmal gehandhabt wird, bei jedem Eintrag Merkmale mitführen, wie z.B. B für Bild oder T für Tabellentext (oder auch f. und ff., siehe vorstehenden Abschnitt). Im Grunde könnten ähnliche Merkmale genommen werden, wie sei bei QuIndex zum Einsatz kommen:

  • u1: Überschrift 1. Ordnung
  • u2: Überschrift 2. Ordnung
  • u3: Überschrift 3. Ordnung
  • u4: Überschrift 4. Ordnung
  • t: Text
  • kt: KastenText
  • tt: Tabellentext
  • bu: Bild oder Bildunterschrift

Neue, speziell für E-Books einzusetzende Merkmale wären die f- und ff-Kennzeichnung.

Praxistests zeigen, dass die feine Unterteilung der Überschrifthierarchien überflüssig ist, denn wenn man auf dem Reader auf einer Seite landet und dort eine Überschrift (oder sogar mehrere) sieht, kann man mit der Information, zu welcher Überschriftordnung die Zielstelle gehört, nicht viel anfangen. Dagegen ist die Info sehr hilfreich, dass die Zielstelle grundsätzlich eine Überschrift ist und nicht der übliche Text.

D.h., die folgenden Merkmale sollten verwendet werden:

  • u: Überschrift (Ordnung egal)
  • t: Text
  • kt: KastenText
  • tt: Tabellentext
  • b: Bild oder Bildunterschrift
  • f und ff

f und ff wären zusätzlich zu den anderen Merkmalen zu verwenden!

  • also z.B. <t f> oder <u ff>

f stünde würde für einen weiteren Absatz, ff für zwei oder mehr weitere Absätze.

Die Merkmale müssten bei der Festlegung der Indexeinträge in Word gleich miteingegeben werden, und zwar am besten in eckigen oder spitzen Klammern.

Mögliche Spezialwege

Inhaltsverzeichnisse: ihre besondere Technik

Was bei fast allen E-Books mitgeliefert wird, ist das Inhaltsverzeichnis. Die Verlinkung von Inhaltsverzeichnissen scheint eine der ersten und wichtigsten Anforderungen an E-Books gewesen zu sein und ist technisch gesehen ein Standardverfahren. Die Frage lautet: kann dieses Standardverfahren auch für die Umsetzung von Indexen genutzt werden? Wie wir unten sehen werden, geht genau das!
Eine wichtige Konsequenz aus der Nutzung von Inhaltsverzeichnistechniken ist, dass ein Index optisch ganz anders aussehen müsste, als wir es vom Gedruckten her gewohnt sind: jeder Indexeintrag müsste die komplette Information enthalten, d.h. vor allem, dass das Hauptthema immer mitgeführt werden müsste. Es würde dann auch nichts bringen, wenn mit Einzügen gearbeitet würde! Jeder Eintrag müsste linksbündig angeordnet sein. Das käme außerdem der Anforderung entgegen, die sich aus den Abmessungen von E-Book-Reader-Displays ergibt: Auf diesen kleinen Bildschirmen muss jeder Raum ausgenutzt werden, Einzüge würden einen Index vollkommen nutzlos werden lassen, insbesondere dann, wenn eine große Schrift eingestellt ist. Auch die Orientierung im Index kann nur dadurch sichergestellt werden, dass in jedem Eintrag das Hauptthema mitgeführt wird.

Lösung des Indexproblems durch Nutzung der Suchfunktion

Selbst wenn die Links aus dem Index heraus in der oben angegebenen Weise gesetzt sind und jeder Indexeintrag die komplette Information enthält (also das Hauptthema mitgeführt wird), besteht immer noch das Problem, dass man erst einmal zum Index gehen muss, um von hier den Sprung zum Ziel auszuführen. Und wenn man feststellt, dass es die falsche Stelle war oder dass man gerne zum selben Thema noch eine andere Stelle aufsuchen möchte, muss man wieder zum Index zurückgehen, um einen weiteren Sprung ausführen zu können. Was heißt „zurückgehen“? Nichts anderes, als zum Index zu Blättern oder mit die „Gehezu“-Funktion zu verwenden. Das ist allerdings recht mühsam und nutzt die Möglichkeiten des Mediums E-Book nicht aus. Eines der wesentlichen Merkmale aller digitalen Medien ist die Suchfunktion, die im Grunde so arbeitet wie die entsprechende Google-Funktion: man ruft die Suche auf, gibt einen Begriff ein, schickt die Suche ab und bekommt eine Liste von Fundstellen präsentiert.
Ich möchte behaupten: Nur wenn der Index voll und ganz in die vorgegebene Technik des Kindle- und EPUB-Formats integriert wird, wird er von den Anwendern genutzt. Dazu muss der Index in die Suchfunktion, die auf jedem Reader zur Verfügung steht, „eingebettet“ sein.
Der Index ist für die Suchfunktion ganz normaler Text, der wie auch das Inhaltsverzeichnis, bei der Suche mit abgedeckt wird. Das heißt, in der Fundliste sind auch Indexeinträge enthalten. Das Entscheidende: die Indexeinträge müssen als solche erkennbar sein! Dazu muss ihnen bereits bei der Indexerstellung ein Merkmal verpasst werden. Eine Möglichkeit bestünde zum Beispiel darin, jeden Eintrag mit einem Vorsatz wie „ind#“ oder auch nur „i#“ zu versehen würde.

Vorteile:

  • Man könnte nach einer allgemein abgeschickten Suche in der Fundliste sofort alle Indexeinträge von anderen Fundstellen unterscheiden.
  • Man könnte die Suche von vornherein auf den Index einschränken, indem man den Vorsatz i# in die Suche mit aufnimmt.

In jedem Fall würde man durch Antippen einer Index-bezogenen Fundstelle von der Fundliste aus im Index landen. Und wenn man dann hier den Begriff antippt, würde der Sprung zum eigentlichen Ziel im Text erfolgen. Bestünde der Wunsch, eine andere Stelle zum selben Thema anzuschauen, bräuchte nur wieder die Suche aufgerufen zu werden. Die Fundliste wäre sofort präsent und man könnte entscheiden, ob man z.B. einen Indexbegriff mit einem anderen Unterthema als Sprungquelle verwenden möchte. Man würde erneut im Index landen und von dort aus den Sprung zum neuen Ziel ausführen.

Nachteile: Praxistests zeigen, dass ein solcher Index

  • kaum gelesen werden kann, weil er viel zu unruhig ist,
  • technisch ohne allzu großen Aufwand nur zu realisieren ist, indem man den Vorsatz (#i oder was auch immer) bereits in die Indexmarken aufnimmt. In Word oder einem Layoutprogramm könnte man die Sortierung vorgeben, und wenn das E-Book aus InDesign oder FrameMaker heraus gemacht würde, würde die besondere Sortierung auch an das E-Book übergeben werden; geht man allerdings den Weg von Word nach Jutoh, so wird die besondere Sortierung ignoriert, d.h., es landet alles unter dem Anfangsbuchstaben des Vorsatzes, also alles unter i! Das hat natürlich keinen Sinn.

Fazit: Die Kennung der Einträge mit einem Vorsatz kann leider nicht angewandt werden.

Technische Erzeugung eines E-Book-Index

Wie kann aber aus einem in digitaler Form vorliegenden Index, der für die Printausgabe erstellt wurde, ein vernünftiger Index für das entsprechende E-Book werden? Vernünftig heißt: sowohl funktional als auch optisch ansprechend.
Alles Nähere dazu wird unter Index mit HyperLinks beschrieben.

Dazu wird das Programm AutoBookmark, ein Acrobat-Plug-In, verwendet. Einzelheiten sind dort zu finden.

ebooks/ebook_indexing.1731925435.txt.gz · Zuletzt geändert: 2024/11/18 11:23 von walter