Sources/UE/Convert

Formatkonvertering

Inhämtade SPC:er från Läkemedelsverket finns det i flera format:

PDF

DOC (MS Word 97-2003)

DOCX (MS Word 2007-2010)

RTF (Rich text format)

Faktumet att SPC publiceras i "Word-format" är ett problem därför att dessa format inte medför en korrekt återgivning av innehållet i alla situationer. Det till exempel är känt att dokumenten i dessa format visas up på olika sätt även inom samma arbetsstation beroende på vilka skrivare är selekterade och vilka fonter är installerade. Detta har som konsekvens att sidreferenser eller avstavningar kan vara felaktiga och utformning av visa grafiska element som t ex tabeller kan förstöras.

Konvertering till PDF

Första steget i konverteringen är att omvandla alla föregående format till PDF.

Det görs av programmet 012_gen_formats.py som går igenom alla dokument och skapar en PDF version av de.

Dessa PDF dokument är att betrakta som den gemensama källan för vårt arbete.

Ett problem uppstår med dokument i RTF. De innehåller icke standard element som våra konverteringsprogram har det svårt att hantera. Det handlar om 26 filer som documenteras i rtf-files

Observera att alla har den "felaktiga" ändelsen .doc i filnamnet (det borde vara .rtf).

Konvertering till XML och Python

Slutmålet innan man kan extrahera data är att konvertera PDF filerna till structurerad data Python där utöver texterna i PDF-filerna man behåller layout information hur olicka texstycken placeras i sidan och i relation till andra textstycken.

Konverteringen går så här: först konverteras alla PDF filer till en XML mellanformat med hjälp av programmet pdf2html. Sedan konverteras dessa xml filer till python format av modulen xpyze.

Resultatet blir ett antal file i katalogen /var/lib/drugle/sources/lmv/spc/py_processed. Alla dessa filer är input till nästa steg: Dataextraktion

Attachments