Hvilken teksterkendelse har jeg brug for til mine dokumenter?

Det afhænger af materialet. Rent tryk kræver kun klassisk OCR. Til vanskelige, blandede eller dårligt scannede forlæg er ICR med AI-metoder mere robust. Håndskrift kræver HTR med dedikerede modeller. I praksis kombineres metoderne som regel. Den mest pålidelige måde at se, hvilken blanding der passer, er en kort test med dine ægte dokumenter.

Hvor præcis er håndskriftgenkendelse i dag?

Betydeligt bedre, end mange forventer. Moderne HTR-pipelines når fejlrater på tegnniveau under fem procent ved gennemsnitlig håndskrift, ofte bedre. Det afgørende er at træne pipelinen på dine faktiske dokumenter frem for på laboratoriedata. Det holdbare svar kommer altid fra et proof of concept med dine ægte scanninger.

Kan AI-teksterkendelse betale sig, selv ved små dokumentmængder?

Ofte ja, men ikke altid. Ved små engangsmængder kan manuel registrering være billigere. Så snart dokumenter ankommer regelmæssigt og i mængde, eller når der skal udledes strukturerede, behandlingsbare data af dem, betaler en automatiseret pipeline sig hurtigt. Vippepunktet regnes bedst ud konkret.

Skal jeg lægge mine dokumenter i skyen for at få dem genkendt?

Nej. Især ved følsomt materiale som ansøgninger, sager eller sundhedsdata kan hele genkendelses-pipelinen køre lokalt, uden at et eneste dokument forlader huset. Cloud-tjenester er en mulighed for ukritisk materiale, men ikke en forudsætning for gode resultater.

OCR, HTR, ICR: Hvad jeres virksomhed skal vide om tekstgenkendelse, Blog, Vellmerk.ai

I kender det: En bunke formularer, halvt trykt, halvt udfyldt i hånden. Indscannede kontrakter fra 90'erne, hvor hver anden side ligger skævt. Håndskrevne noter fra den udekørende afdeling, der på en eller anden måde skal ind i systemet. Og så siger nogen: „Det kan OCR da klare.“

Og det kan det også. Nogle gange. For trykt tekst i ren kvalitet er OCR faktisk en moden teknologi. Men så snart håndskrift kommer i spil, layouts bliver komplekse, eller scankvaliteten svinger, støder klassisk OCR mod sine grænser. Og netop her bliver det interessant, for de færreste ved, at der ved siden af OCR findes to yderligere discipliner, der i praksis ofte er afgørende.

Tre bogstavkombinationer, tre forskellige verdener

Når vi taler om automatisk tekstgenkendelse, dukker forkortelserne hurtigt op. Lad os sortere de tre vigtigste, uden akademisk ballast, men med blik for praksis.

OCR, Optical Character Recognition

Hvad det er: Optical Character Recognition, hvor „Character“ her ikke betyder et menneskes karakter, men ganske enkelt tegnet eller bogstavet. Vi genkender altså ikke personligheder, men skrift. Selv om man ved nogle håndskrifter sagtens kunne drage konklusioner. Teknisk sagt: OCR omdanner pixels til maskinlæsbar tekst, bogstav for bogstav, ord for ord.

Hvor det fungerer godt: Ren trykskrift, standardiserede formularer, fakturaer, breve, kontrakter i god scankvalitet. Til disse anvendelser har OCR i årevis været en hyldevare, der findes utallige udbydere, og teknologien er moden.

Hvor det støder mod grænser: Så snart kvaliteten af inputmaterialet svinger, skæve scanninger, pletter, falmet blæk, blandede skrifttyper, falder genkendelsesraten brat. Og ved håndskrift er klassisk OCR simpelthen overbelastet.

HTR, Handwritten Text Recognition

Hvad det er: Genkendelse af håndskrift, altså det, som OCR ikke kan. HTR er en disciplin for sig, der er markant mere krævende end genkendelse af trykskrift. Hvert menneske skriver forskelligt, variansen er enorm, og kontekstafhængig fortolkning er tvingende nødvendig.

Hvorfor det er så svært: Håndskrift er ikke standardiseret. Et „a“ kan have hundrede forskellige former. Bogstaver overlapper, linjer er skæve, nogle gange mangler dele af ord. Mens OCR i bund og grund laver pattern matching, må HTR medbringe ægte sprogforståelse: konteksten afgør, om der står „Hus“ eller „Hans“.

Her en personlig tilståelse: Min egen håndskrift er ubeskrivelig. For at kunne genkende mine egne håndskrevne noter hjælper det mig enormt, hvis jeg kender konteksten. Og det sker faktisk, at jeg ikke længere kan tyde mine hieroglyffer, når konteksten ikke rækker. For så vidt er jeg lykkelig for, at vi nu om dage primært skriver på computeren, hvilket også gør kommunikationen mellem mig og mine kunder betydeligt enklere. Men jeg kommer på afveje.

Præcis dette problem har en maskine også. Og netop derfor er HTR så krævende: Systemet skal ikke kun genkende pixels, men forstå, hvad der mon kan være ment. Det har brug for sprogmodeller, kontekstviden og, ja, en vis fejltolerance over for kreativ bogstavføring.

Hvor det er relevant: Offentlig forvaltning (håndudfyldte ansøgninger og formularer), forsikringsselskaber (håndskrevne skadesanmeldelser), sundhedsvæsen (håndskrevne lægenotater), arkiver og biblioteker (historiske dokumenter). På alle disse områder er håndskrift ikke en undtagelse, det er normaltilfældet.

ICR, Intelligent Character Recognition

Hvad det er: ICR er i kernen den intelligente tilgang, der kombinerer styrkerne ved traditionelle OCR-pipelines, HTR-modeller og moderne AI-metoder, og udvider dem med yderligere trin. Man kan forestille sig ICR som det orkestreringslag, der for hvert dokument afgør: Hvilke områder er tryk? Hvilke er håndskrift? Hvilken model bruges hvor? Og hvordan validerer vi resultatet?

Hvad der adskiller ICR fra OCR: Klassisk OCR arbejder med faste regler og skabeloner. ICR lærer af data, bruger ensemble-metoder, altså kombinationen af flere modeller, der supplerer og korrigerer hinanden, og kan som et post-processing-trin endda anvende Large Language Models til at tjekke genkendte tekster for plausibilitet og rette fejl. Resultatet: en pipeline, der er markant mere robust end enhver enkeltkomponent.

Kan ICR alt? I princippet ja. ICR kan bruges overalt, hvor OCR også bruges, og leverer som regel bedre resultater. Til rene standarddokumenter er det overkill, og klassisk OCR rækker. Men så snart virkeligheden slår til, og det gør den næsten altid, er ICR den tilgang, der gør forskellen. Det er det, virksomheder egentlig mener, når de siger „OCR“: ikke kun at genkende trykt tekst, men at kunne håndtere hele bredden af virkelige dokumenter.

Hvor de overlapper, hvor de adskiller sig

De tre teknologier er ikke konkurrenter, de er værktøjer til forskellige problemer, der i praksis ofte kombineres.

OCR er en hyldevare. Teknologien er bredt tilgængelig, priserne er lave, kvaliteten god ved rent input. Til standardiserede trykdokumenter har I ikke brug for en specialist.

HTR er højt specialiseret. Her har I brug for ekspertise i deep learning, sprogmodeller og domænespecifik træning. De udbydere, der virkelig mestrer det, kan tælles på to hænder.

ICR slår bro, og er samtidig den disciplin, hvor det bliver tyndest. Der er mange, der i dag kalder sig „AI-ekspert“. Som regel betyder det, at de kan betjene ChatGPT middelmådigt, og derefter bliver det også hurtigt tyndt. Men ICR er markant mere end det: Det bringer intelligensen og tilpasningsevnen fra AI-modeller ind i tekstgenkendelsen og gør den robust nok til virkeligheden, blandede layouts, svingende kvalitet, heterogene dokumenttyper. Det kræver ægte forståelse af modelarkitekturer, træningsdata og domæneviden.

I moderne pipelines kombineres alle tre: OCR til den trykte tekst, HTR til de håndskrevne dele, ICR som intelligent orkestreringslag, der afgør, hvilken metode der bruges hvor. Den egentlige udfordring er aldrig teknologien alene, men kundens specifikke data.

Hvorfor det er relevant for jeres virksomhed

Mange forretningsprocesser er stadig papirbaserede, eller bygger på dokumenter, der på et tidspunkt var på papir. Digitaliseringen af disse dokumenter er ingen teknisk leg, men grundforudsætningen for enhver videre automatisering.

Offentlig forvaltning: Håndudfyldte formularer er på mange områder lovpligtige eller ganske enkelt virkelighed. Byggeansøgninger, borgerhenvendelser, håndskrevne påtegninger på sager: alt det skal registreres digitalt, hvis forvaltningsprocesser skal moderniseres.

Forsikringsselskaber: Skadesanmeldelser, der er udfyldt i hånden. Gamle kontrakter, der blev scannet for 20 år siden. Vurderinger med håndskrevne tilføjelser. Alt det er ikke undtagelser, det er den daglige forretning.

Sundhedsvæsen: Håndskrevne lægenotater, fund, ordinationer. Trods tiltagende digitalisering er håndskrift fortsat allestedsnærværende i den medicinske dokumentation.

Arkiver og kulturinstitutioner: Historiske dokumenter, kirkebøger, gammel korrespondance. HTR gør disse samlinger maskinlæsbare og søgbare for første gang, en enorm gevinst for forskning og tilgængelighed.

Industri og logistik: Håndskrevne følgesedler, kontrolprotokoller, vedligeholdelsesrapporter. På mange operative områder arbejdes der fortsat med pen og papir, og disse data skal overføres til digitale systemer.

De retlige rammer: Hvorfor forvaltninger i Norden og EU ikke kommer udenom

Hvad mange overser i debatten om digitalisering: Forvaltninger er forpligtet til at holde den analoge adgangsvej åben. Borgere har ret til at indsende formularer på papir, udfyldt i hånden, underskrevet, med posten eller ved skranken. Digitalisering erstatter ikke papirvejen, den kommer til. Og det betyder: Nogen skal behandle de analoge indkomne dokumenter.

Danmark: Digital post, fritagelse og tilgængelighed

Danmark er blandt de mest digitaliserede forvaltninger i verden, med Digital Post og obligatorisk digital selvbetjening som udgangspunkt. Men loven afskaffer ikke papirvejen, den kommer til. Borgere kan blive fritaget for Digital Post, og fritagne borgere har ret til at indsende ansøgninger, klager og formularer på papir. Dertil kommer kravet om underskrift, der for talrige forvaltningshandlinger forudsætter en egenhændig underskrift.

Konsekvensen: Kommuner og statslige myndigheder skal modtage papirformularer, digitalisere og behandle dem, og det effektivt. Tilgængelighedskravene forstærker det yderligere: Ikke alle borgere kan eller vil bruge digitale formularer. Ældre mennesker, mennesker med handicap, mennesker uden internetadgang, de har alle krav på den analoge vej. Formularerne kommer altså, hvad enten man vil eller ej. Spørgsmålet er bare, om man taster dem manuelt af eller behandler dem intelligent.

Norden: Høj digitaliseringsgrad, men sikret analog adgang

De øvrige nordiske lande satsede tidligt på digitalisering. Men forvaltningslovgivningen er entydig: Henvendelser, altså ansøgninger, anmodninger, klager, kan indgives skriftligt. Myndigheder skal acceptere og behandle denne adgangsvej. I praksis betyder det: håndudfyldte formularer på rådhuset, byggeansøgninger på papir, underskrevne indsigelser med posten. Nordens forvaltninger er digitalt ambitiøse, men forpligtet til at holde den analoge ansøgningsvej åben.

EU: Single Digital Gateway og det decentrale problem

EU har med forordningen om en fælles digital portal (Single Digital Gateway) forpligtet medlemslandene til at tilbyde centrale forvaltningsydelser digitalt. Men også her gælder de nationale forvaltningslove: Henvendelser til myndigheder kan ske skriftligt. Myndigheden skal modtage og behandle dem. Med mange tusinde kommuner i hele EU og meget forskellige digitaliseringsgrader er det ingen teori: Det, der i de digitale frontløberlande for længst indsendes digitalt, kommer i mange kommuner stadig som håndudfyldt papirformular over skranken eller med posten.

Mønstret er det samme overalt: Den analoge adgangsvej til forvaltningsydelser er lovsikret. Ansøgninger, klager, formularer, borgere må indsende dem på papir, og myndigheden skal behandle dem. Det skaber en permanent strøm af håndudfyldte dokumenter, der ikke ophører, så længe disse love gælder. Spørgsmålet er ikke om, men hvor effektivt disse dokumenter digitaliseres.

„Digitaliseringen af forvaltningen betyder ikke, at papir forsvinder. Den betyder, at vi endelig håndterer det intelligent, og gør analoge indkomne dokumenter til digitale processer.“, Thorsten Vellmerk

Mål kvaliteten: CER og WER

Når I taler med udbydere om tekstgenkendelse, vil I igen og igen høre to målepunkter: CER og WER. Hvad betyder de, og hvad siger de egentlig?

CER (Character Error Rate): Procentdelen af forkert genkendte tegn. Hvis 20 ud af 1.000 tegn i en tekst er forkerte, er CER 2 %. Dette målepunkt er særligt relevant, når det kommer an på hvert enkelt tegn, for eksempel ved navne, adresser eller tal.

WER (Word Error Rate): Procentdelen af forkert genkendte ord. Et ord regnes som fejlbehæftet, hvis blot ét tegn i det er forkert. WER er som regel højere end CER og giver et mere praksisnært indtryk af, hvor brugbart resultatet er.

Hvad er „godt“? Det afhænger af konteksten. Moderne AI-baserede pipelines opnår ved trykt tekst en CER under 2 %: det er for de fleste anvendelser fremragende. Ved håndskriftsgenkendelse ligger benchmarken under 5 % CER, hvilket for få år siden blev anset for uopnåeligt.

Vigtigt her: Disse tal er gennemsnit. Den faktiske genkendelsesrate afhænger altid af kvaliteten af inputdokumenterne. En rent trykt formular genkendes bedre end en krøllet, falmet håndskrevet seddel. Seriøse udbydere kommunikerer det åbent, useriøse lover 99 % nøjagtighed uden kontekst.

Traditionelle OCR-udbydere, der har brugt den samme engine i 20 år, opnår ofte ikke disse værdier, især ikke ved håndskrift eller forringet materiale. Heri ligger den afgørende fordel ved moderne, AI-baserede tilgange.

vellmerk.ai-tilgangen

Vellmerk.ai bygger ikke generiske OCR-løsninger. Vellmerk.ai bygger AI-understøttede dokumentbehandlings-pipelines, der er skræddersyet til hver kundes specifikke data og krav. Det lyder som marketing, men er den afgørende forskel.

„Hvert kundeprojekt er forskelligt. Dataene er forskellige, formularerne er forskellige, kravene er forskellige. Den, der påstår at have en one-size-fits-all-løsning, giver falske løfter.“, Thorsten Vellmerk

Nøglen til det hele er dataene. Før Vellmerk.ai taler om modeller, arkitekturer eller pipelines, ser Vellmerk.ai på, hvad I faktisk har: Hvilke dokumenter kommer ind? I hvilken kvalitet? Hvor meget håndskrift, hvor meget tryk? Hvilke sprog, hvilke layouts? Først når vi forstår datalandskabet, kan vi designe en løsning, der fungerer i praksis, ikke kun i laboratoriet. Den, der springer dette trin over, bygger på sand. Eller som vi har beskrevet det i en anden artikel: Data er det informationsfundament, som alt bygger på.

Hvad det konkret betyder:

Data først, teknologi bagefter: Vellmerk.ai starter hvert projekt med en analyse af jeres faktiske dokumenter, ikke med testdata fra laboratoriet. Vi ser på jeres dårligste scanninger, jeres mest ulæselige håndskrifter, jeres mest komplekse layouts. For dér viser det sig, hvad løsningen skal kunne. Af dataene udspringer løsningsmulighederne, ikke omvendt.

AI-baserede pipelines i stedet for standardsoftware: På grundlag af denne analyse kombinerer vi de bedste tilgængelige modeller til OCR, HTR og ICR i en pipeline, der er optimeret præcist til jeres dokumenttyper. Resultatet: bedre genkendelsesrater end generiske løsninger, til lavere omkostninger pr. dokument.

On-premise og lokalt deploybar: Det er i mange projekter det afgørende punkt. Hvis I behandler personalesager, sundhedsdata, borgerdata eller andre følsomme dokumenter, kan disse data ikke sendes til en cloud. Vores pipelines kører fuldstændigt på kundens egen infrastruktur: dataene forlader aldrig huset.

„Når der er personoplysninger i spil, og det er der næsten altid ved formularer, så skal løsningen komme til kunden, ikke dataene til skyen.“, Thorsten Vellmerk

GDPR-konform by design: Ingen afhængighed af amerikanske cloud-tjenester, ingen dataoverførsel til tredjeparter, fuld kontrol over behandlingskæden. Det er ikke en feature: det er en grundforudsætning.

Erfaring på tværs af hele bredden: At mestre OCR, HTR og ICR under ét tag er sjældent. De fleste udbydere kan trykt tekst. Nogle kan håndskrift. Men kombinationen af alle tre discipliner i én integreret pipeline: det er en niche, som Vellmerk.ai har bevæget sig i i årevis, fra flere kundeprojekter og over 20 års praksis.

De vigtigste indsigter på et øjeblik

1. OCR alene rækker ofte ikke. Så snart håndskrift, komplekse layouts eller svingende kvalitet kommer i spil, har I brug for HTR og ICR.

2. Teknologien er ikke problemet: dataene er det. Den bedste pipeline er kun så god som forståelsen af jeres virksomheds specifikke dokumenter og krav.

3. AI-baserede tilgange slår traditionel OCR. Moderne pipelines med deep learning opnår genkendelsesrater, der for få år siden var utænkelige, og det til lavere omkostninger end brute force-tilgange.

4. Databeskyttelse er ikke til forhandling. Ved følsomme dokumenter skal løsningen køre lokalt. Den, der fortæller jer noget andet, kender enten ikke retstilstanden eller ignorerer den.

5. Der findes ingen one-size-fits-all-løsning. Hvert projekt har brug for en pipeline, der er afstemt efter kundens virkelige dokumenter, processer og kvalitetskrav.

Konklusion

Tekstgenkendelse er ikke et løst problem, i hvert fald ikke for de dokumenter, der i virkeligheden lander på jeres skrivebord. OCR til trykt standardtekst? Ja, det er en hyldevare. Men så snart håndskrift, blandede formater eller forringet materiale kommer i spil, betræder I et felt, hvor erfaring, specialisering og den rigtige AI-arkitektur gør forskellen.

Den gode nyhed: Med moderne AI-pipelines er genkendelsesrater opnåelige, der for få år siden gjaldt som science fiction. Den endnu bedre nyhed: Disse løsninger kan drives fuldstændigt on-premise, jeres følsomme data bliver, hvor de hører til.

Har I dokumenter, der skal digitaliseres, og „simpel OCR“ rækker ikke? Tag kontakt til os, Vellmerk.ai analyserer jeres dokumenter og viser jer, hvad der er muligt med en skræddersyet pipeline.

Om Vellmerk.ai

Vellmerk.ai er et AI-rådgivningsfirma (dansk ApS) grundlagt af Thorsten Vellmerk. Med over 20 års proces- og IT-erfaring og flere års praktisk AI-rådgivning hjælper Vellmerk.ai SMV'er og offentlig forvaltning med at bruge AI praksisnært og suverænt, fra strategi til lokal, on-premise-klar implementering. Afprøvet i flere kundeprojekter. Book en indledende samtale.