Sources/UE/Extraction

Data

Separera sektioner

Varje dokument i py_processed behandlas så att varje standard sektionen i SPCn markeras. Detta möjligör att hämta utvalda sektioner från SPC dokumentet, t ex: Biverkningssektionen.

Extrahera biverkningar

Metodiken är att att analysera olika sätt att presentera strukturerat data om biverkningar. Det kan vara i tabel, matris eller enkel strukturerad text.

Ett antal olika presentationer har identifierats:

LSFU

Layout-System-Frequency-Undesirable effects

Det är en textbaserad presentationsform med den textstruktur som visas neda.

    [[<system-organ>
        [<frequency> <undesirable-effects>,
        ...]],
    ...]

Till exempel: Ipren suppository

DFSU

DFSU layout/table organiserad som nedan:

<frequency> <system-organ>
<undesirable-effects>
... ...

Till exempel: Lepheton oral solution

MSFU

Står för Matris-System-Frequency-Undesirable effects

Är tabeller i form av en matris med systemorgan som rader och frekvens som kolumner:

Frequency1 ... Frequency N
SOC 1
...
SOC M

Till exempel:

Bearbetning av SPC för att separera olika sektioner och därmed biverkningssekionen.
5) Analys av de olika sätt som används för att presentera strukturerad biverkningsinformation.
6) Utveckling av algoritmer för att extrahera data från de olika former av presentation.
7) Göra hela processen upprepningsbar
8) Iterativt genomföra extraktioner, jämföra resultaten med tidigare resultat och förbättra algoritmer.

Attachments