Repository ist erreichbar, und jetzt ...

Die Software läuft und die Infrastructure ist erreichbar und jetzt? Was kann man damit mach? Man kann seine Daten speichern. Wie?

Dieser Stand ist fast vergleichbar mit einer frisch installieren Festplatte auf der gerade das Dateisystem der Wahl eingerichtet und gemountet wurde. Jetzt nimmt man ein Werkzeug zum Kopieren von Dateien und kopiert diese ins neue Verzeichnis.

Ganz so leicht ist dies bei Repositories nicht. Zum einen sollten die Daten möglichst strukturiert abgelegt werden, wobei sich die Ablagestruktur am Anwendungsfall orientiert. Zum anderen sind die Schnittstellen der Repositories nicht so homogen wie die der Dateisysteme, so dass nicht jeder Im-/Exporter die Daten aus einem bestehenden Repository in ein neues überführen kann. Derzeit bietet eSciDoc noch keine CIFS oder WebDAV Schnittstelle.

Ausserdem geht es meist darum Daten, die als lokale Dateien vorliegen in ein Repository zu überführen. Die Struktur der zu importierenden Daten sind sehr unterschiedlich, besonders was Metadaten betrifft.
Da Metadaten fast das wichtigste in einem Repository sind, fällt es schwer ein generisches Werkzeug bereitzustellen welches eine vorhandene Datensammlung just mal importiert und mit Metadaten ergänzt.

Auf die eSciDoc Infrastructure sollen i.d.R. viele Nutzer lesend und schreibend zugreifen können. Die Art und Weise wie Nutzer die Daten anlegen können muss für die jeweiligen Anwendungsfälle konzipiert werden.

Bevor also die ersten Nutzdaten im Repository landen muss man die administrative Rolle einzunehmen und Strukturen zu schaffen damit die Daten auch langfristig sinnvoll und effizient im Repository strukturiert sind. 

Wie muss ich strukturieren?

Es ist schwer eine, über einen langen Zeitraum, passende Strukturierung zu definieren bevor man überhaupt alle Anwendungsfälle erkannt und verstanden hat. Erschwährend hinzu kommen die Besonderheiten einer jeden Software, d.h. dass die eine oder andere Art der Datenanordnung sich vielleicht sehr schlecht auf die Gesamtleistung des Systems auswirkt oder zu einem erhöhten Aufwand an Administration führt. 

Die eSciDoc Infrastruktur bietet im Gegensatz zu anderen Repositories keinen generischen Datentyp an, sonders setzt gezielt auf vordefinierte Datentypen die sehr wahrschienlich in irgend einer Form in jedem Repository benötigt werden. Die wichtigsten Typen sind: Organizational Units, Context, Content Model, Container und Item.

In einem Repository für den gemeinschaftlichen Einsatz sind Zugriffsberechtigungen ein wichtiges Kriterium. Dies betrifft auch Open Access Umgebungen, denn unabhängig davon ob jeder die Daten einsehen kann, nicht jeder soll Daten einfach einstellen oder löschen können (und zumindest die Zuordnung der Autorenschaft sollte ja gesichert sein).

Bei der eSciDoc Infrastructure sind Berechtigungen nicht direkt mit den einzelne Elementen verknüpft. Die Prüfung auf Berechtigung erfolgt über Regeln und Actions, d.h. beim Ausführen einer Aktion wird die Liste der Regeln durchlaufen und die Parameter der einzelnen Regel mit der jeweiligen Aktion geprüft. Dies erfolgt solange bis eine Regel die Aktion erlaubt oder alle Regel geprüft sind. Dabei ist schon ersichtlich, dass häufig auftretende Regeln möglichst früh in der Regelliste enthalten sein sollte und zum anderen die Liste nicht übermäßig lang werden sollte.

Als sehr sinnvolle Parameter für ein effizientes Regelwerk werden der Context und die Organizational Units angesehen.