Sources/UE

BIKT verktyget

BIKT verktyget är det kollektiva namnet för ett antal program från Drugle som används för att Ladda ner, konvertera, extrahera och kvalitetskontrollera biverkningsinformation från SPCer från Läkemedelsverket och EMA.

Extraktion

Här beskrivs hur det görs för att extrahera strukturerad biverkningsinformation från Produktresuméer (SPC) publicerade på Läkemedelsverkets webbsida.

Processen är automatiserad och genomförs helt med program som finns i Drugle kodbas. Den består av flera steg:

  1. Neddladning av NPL från  https://npl.mpa.se/mpa.npl.services/publicering/npl.tgz. En lokal NPL databas byggs upp
  2. För varje produkt (nplid) i NPL av typ MPA, finns det motsvarande sida (Produktinformation) i Läkemedelsverkets webbsajt (http://www.lakemedelsverket.se/Sok-efter-lakemedel-och-mediciner-i-Lakemedelsfakta/Produktinformation---lakemedel/?NPLId=" + nplid). Produktinfosidan läses upp.
  3. Från Produktinformationssidan länkar till SPC dokument hämtas. För de flesta produkter finns det direkta länkar till dokument. Däremot för ca 600 fall, SPC:er finns att hämtas från i EMAs webbsida i en separat process (se punkt 4). SPC som hämtas från LV finns det i ett flertal format: PDF, MSWord 2003, MSWord 2007, RTF: En lokal databas med SPC från LV byggs upp (en för varje formattyp)
  4. Scrapping av alla "svenska" dokument från EMAs webbsajt (http://www.ema.europa.eu/ema/index.jsp?curl=pages/medicines/landing/epar_search.jsp&mid=WC0b01ac058001d124). En lokal databas med alla EMAs dokument byggs upp (drugle/sources/emea/spc/sv). Alla EMAs SPC är i PDF format.
  5. Konvertering av alla dokument till PDF format.
  6. Konvertering av alla dokument till en mellanformat i XML där man behåller dokumenternas layoutinformation.
  7. Separation av sektionerna i varje SPC. Resulterar i en databas ("py_processed") som är utgångspunkten för att tolka och extrahera bland annat strukturerad biverkningsinformation.
  8. Exekvering av "ue.py" som är programmet som tolkar och extraherar biverkningsinformation. Detta resulterar i en fildatabas där varje fil innehåller all biverkningsiformation som har extraherats fån en enskild SPC. Totalt består databasen av ca 4000 enskilda filer.

En djupare beskrivning av dessa steg ges här: Nedladdning, Konvertering, Dataextraktion

Biverkningsdatabas

Tjänster/Biiverkningsöversikt

Underlag och förarbete

Attachments