Fråga:
Fysisk text till digital text
Kyle Bridenstine
2018-06-09 21:53:43 UTC
view on stackexchange narkive permalink

Låt mig först prefixa den här frågan med, jag har ingen aning om vilken StackExchange-webbplats som passar bäst för den här frågan, men jag trodde att LifeHacks kanske skulle fungera ...

År 1998 var min mammas sida av familjen hade en stor släktträff (min farmor hade tio barn så det var verkligen en stor sammankomst). En av mina avlägsna farbror skrev en slags bok om vår familjes historia för denna återförening och min mamma gav mig boken att läsa. Jag kunde inte tro hur stor den är och hur mycket forskning som gick in i boken. Jag skulle vilja räkna ut ett sätt att få hela boken på en webbplats som jag ska göra där jag sedan kan dela den med alla i vår familj och i slutändan bevara historien längre än den här tunna boken kan.

I hopp om att jag inte behöver skriva ord för ord är hela denna 300-sidiga boken ett sätt där jag bara kan skanna sidorna och få dem i digital text? Självklart kunde jag bara ta bilder och göra webbplatsen med bilderna men jag känner att det vore mer fördelaktigt att ha den som faktisk text, för då kan det visas bättre på Google-sökningar när någon söker efter ett familjemedlems namn eller något liknande. Om någon i familjen någonsin gör ett forskningsprojekt om vår familj skulle de kunna kopiera en del av texten och referera till den lättare.

Så vet någon det bästa sättet jag kan få den här gamla familjeboken till digital text?

Book front page

Book indicating thickness

Fem svar:
hlecuanda
2018-06-11 08:56:22 UTC
view on stackexchange narkive permalink

Använd en Android-telefon och funktionen " Google Lens. " har nyligen lagts till i fotoprogrammet och kamerafotornas granskning.

OCR via Google Lens är ganska fantastiskt och exakt än alla OCR-program som jag någonsin har använt.

Nedan följer några skärmdumpar som beskriver proceduren med en billig (100 USD) Nokia 3, bästa telefon jag har haft nöjet att använda sedan min älskade Nexus 4 gav upp spöket .

Jag kommer att redogöra för ett exempel på en OCR-skanning av en grekisk etymologibok som trycktes 1976 som jag inte vågar sönder för skanning, som verkar ha liknande karaktärstäthet och typsnitt.

I tog den här originalbilden i mindre än perfekta ljusförhållanden, med hjälp av alla automatiska inställningar på den så-så-kamerakameran, inga speciella fototekniker eller fixturer för att förbättra resultatet användes, man kan säga att det är bara en vanlig amatörmässigt taget telefonbild på en boks sida . (Se bara till att texten är fokuserad, ingen OCR dechiffrerar suddig off-focus-text)

enter image description here

Klicka på Googles linsikon, tillgänglig via förhandsgranskningen efter att ha tagit bilden eller på själva fotot med hjälp av appen Google photos

enter image description here

Här är -Skynet- ^ M ^ M ^ M ^ M ^ M ^ M Jag menar, Google Lens gör sin magiska skanning (prickarna är lite läskiga men de var tvungna att göra något för att meddela att googley AI gör sin sak antar jag)

enter image description here

När bilden har skannats hittar du textområden som Google Lens hittade på bilden tydligt beskrivna och deras text redan extraherad till den nedre halvan av skärmen. om du bara vill ha vissa områden och inte andra, tryck bara på ditt val för att aktivera / avaktivera dem.

Om du trycker på den extraherade texten placeras den i ditt urklipp för att kopiera / klistra in godhet var som helst på din telefon.

enter image description here

Därefter klistrar du bara in texten i ett Google-dokument -dokument. Där kan du: - korrigera eventuella misstag där eller på din dator, - dela dokumentet till ditt hjärta, - publicera det som en webbsida med liveuppdatering av dina ändringar, eller - exportera till - vanlig text, - orddokument, - öppet kontordokument , - tända kompatibel epub elektronisk bok med återflödande text, eller - bra ol 'Icke-DRMd PDF

Det kan hävdas att detta förmodligen är den kortaste vägen till publicering, med bredast möjliga utmatningsalternativ.

Du kan göra allt från en enda enhet (Android-telefon med lämpliga appar installerade) och göra det på nolltid med hög noggrannhet, i princip gratis.

Här är Google Docs klistrade in Fragment
enter image description here

Här är Google Docs URL-delning, gärna kommentera. Du kan också få någon att hjälpa dig att redigera dokumentet på distans och samtidigt.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Slutligen är här en webbplats för Google Sites publicerad med det ovan nämnda dokumentet som länkad källa

https://sites.google.com/h-lo.me/ocrsample

Det är https, skrivbords- och mobilaktiverat och beroende på smak är det vanligtvis inte ont i ögonen. Inte illa för 15 minuter totalt arbete och ingen kodning alls.


Det finns en förfining kvar, och det är att skapa korrekta stycken på Google-dokumentet, eftersom Google Lens infogar en hård avkastning efter varje rad med extraherad text, vilket gör varje rad till sitt eget stycke och detta blir ett problem om du vill använda Google Docs-funktioner som innehållsförteckningen eller när du exportera ditt dokument till en tändkompatibel elektronisk bok med e-pub (förstör återflödande text)

Du kan bara gå med i varje rad där det är lämpligt genom att trycka på backstegstangenten vid varje radstart eller detta kan automatiseras med ett skript.

Så jag skriver ett tillägg för appskript som jag kommer att publicera inom kort för att automatisera processen. Jag meddelar dig här när det är klart.

Stor detalj. Jag gillar den här kostnadsfria lösningen. Tack!
Mitt nöje! Du kanske till och med har allt du behöver redan! :)
For a thick book, this is a really labor-intensive approach: you have to manually flip each page and then photograph it.
Stan
2018-06-10 03:54:56 UTC
view on stackexchange narkive permalink

Du kan göra detta stegvis. Börja med att sätta allt online som sidskanning och uppdatera när och när du kan. Cerlox ™ plastkammarbindning gör det enkelt att ta isär det och sätta tillbaka det i bindningen.

Eftersom utskriften verkar vara normal serif-typ i samma storlek, kan skanningarna digitaliseras med optisk teckenigenkänning programvara. OCR kan ge dig ett utkast till textfil som du kan korrekturläsa och publicera på webbplatsen för dess slutliga form.

Samtidigt kan du städa upp bilderna och annat bildmaterial.

Du kan göra detta när tid / resurser blir tillgängliga för dig för projektet.

Liknar föregående svar, men inte så detaljerat.
@TrajanEspelien Vilket tidigare svar? Kontrollera tidsstämpeln. Svaret var först två dagar före hiecuanda-inlämningen. :)
Ja, men det har inte så mycket detaljer som det andra svaret, varför jag accepterade det andra över detta. Det är inte först till kvarn-server ... det är det bästa svaret.
@KyleBridenstine Ingen skoj! Jag röstade också för hiecuanda. Det var ett bra svar. Förresten, vad händer om du inte har en Android-telefon eller inte kan komma åt Glass? Jag gav ett generiskt svar på frågan. :)
Det är sant om du gav en specifik länk till gratis OCR-programvara som förmodligen skulle ha sålt ditt svar för mig. Det är ett grått område som jag skulle acceptera ditt svar men ville vänta så att människor fortfarande skulle vara benägna att lägga upp sina lösningar. Men när jag såg hlecuandas svar var det så detaljerat att jag bestämde mig för att acceptera det. Du har fortfarande ett bra svar och jag röstade definitivt upp det själv.
@KyleBridenstine Tack för de vänliga orden. Vi instämmer. Jag tror att du gjorde rätt genom att vänta. Första svaret är INTE bäst (såvida det inte * är * av någon anledning. Det finns trots allt deadlines.) Jag skickade länken till din fråga och hiecuandas fantastiska svar till en kollega som måste göra samma sak med en enorm hög med skolan poster från Brasilien!
The main reason not to use the more detailed answer is that it's using a page by page OCR process. Once you scan all the pages, you can batch OCR all the pages at once using Tesseract (or something that uses the Tesseract engine) to create a full PDF automatically.
therobyouknow
2018-06-23 05:38:34 UTC
view on stackexchange narkive permalink

Några bra svar här för att närma dig det själv.

Jag vill lägga till min erfarenhet av att betala någon annan för att göra det åt dig.

Jag använde Digitalisera min Böcker i Storbritannien (jag är baserad i Storbritannien själv).

Jag var mycket nöjd med resultaten: Varje bok returneras som en PDF som har sökbar (och kopierbar) text. En vanlig PDF-teknik används där originalbilden för varje sida bibehålls men med en textöverlagring så att du kan markera originaltexten på sidan. Mycket bra värde. Som någon utomlands från Storbritannien kan du fortfarande skicka böckerna till dem.

De erbjuder också ett alternativ för att boken ska vara i redigerbart orddokumentformat till en extra men mycket rimlig kostnad.

Om du inte behöver returnera originalet, då billigaste alternativet skulle vara att välja destruktiv skanning. Det är här sidorna tas individuellt från boken och skannas. Som standard returneras inte originalboken, men jag tror att du kan begära det, eventuellt till en extra kostnad (t.ex. för returporto) men sidorna kommer att vara lösa efter att ha tagits bort för att skannas individuellt. Destruktiv skanning är det alternativ jag valde för alla mina böcker och jag krävde inte att originalen skulle returneras.

De erbjuder också icke-destruktiv kopiering om du behöver originalet, men kostnaden är högre. De accepterar också dina egna digitala skanningar om du redan har skannat en bok själv - de kan göra detta till den sökbara, kopieringsbara PDF- eller Word-dokumenten.

Titta runt på deras webbplats. Jag tycker verkligen att detta är det bästa alternativet: spendera pengar för att spara tid, snarare än att spendera tid för att spara pengar.

Jag arbetar inte för Digitalisera mina böcker och har inte heller något ekonomiskt intresse av dem (aktieägare eller annat).

Ursprungligen började jag själv "skanna" i böckerna genom att fotografera med en DSLR-kamera (fotografering är snabbare än flatbäddsskanning) med varje sida öppen med ett klippklipp och blu-tak. Men jag tyckte att detta var ganska arbetskrävande.

Om du fortfarande vill göra det själv är ScanTailor ett Windows-program med öppen källkod som kommer att formatera, dela dubbla sidor / sidpar som skannas till enskilda sidor, räta ut och "dewarp" dem. Så att de resulterande sidorna visas platta och raka som önskat, men det gör inte OCR: resultaten är fortfarande bitmappsbilder. Men åtminstone går det på ett visst sätt att automatisera att städa upp eventuella snedvridningar av sidorna, särskilt för icke-destruktiv kopiering där det är svårt för en att ordna sidorna så att de är platta för stora böcker.

Uppdaterad

Lagt till mer information om skanningsalternativ som erbjuds av en tjänst. ScanTailor ytterligare information. Grammatiska korrigeringar.

Hobbes
2018-12-17 19:47:44 UTC
view on stackexchange narkive permalink

Det snabbaste sättet att göra detta är att kontakta din släkting och se om de fortfarande har originalfilerna som de använde för att skapa den boken. Från förstasidans foto skulle jag säga att det har gjorts på en dator. Konvertera från {infoga riktigt gammalt ordbehandlingspaket här} till ett aktuellt format så är du klar.

Det näst snabbaste sättet att förvandla en bunt tryckt material till ett digitalt dokument:

  1. Ta bort bindningen.
  2. Klipp av den vänstra kanten av sidorna för att bli av med hålen. Hål stör en dokumentmatare.
  3. Gå igenom boken och vik ut alla veck och andra skador som kommer att störa en dokumentmatare.
  4. Hitta en rimligt modern duplexskrivare som har en dokumentmatare och en skanningsfunktion. Skanna till PDF.

Använd sedan valfritt OCR-paket för att förvandla de skannade sidorna till en Word-fil. Jag använder OCR-funktionerna i den fullständiga versionen av Adobe Acrobat för detta ändamål, men det finns många OCR-motorer runt.

Alan
2018-06-15 01:23:07 UTC
view on stackexchange narkive permalink

Du kanske vill prova en mycket billig tjänst: preserve-your-memories.info. När jag gör det själv använder jag min skanner för att skanna till OmniPage, ett OCR-program, och sedan spara som en pdf-fil som är helt sökbar. Eftersom din publikation är plastbunden är det lätt att ta isär för att skanna enskilda sidor & och sedan binda om. Att ta bilder som beskrivs i ovanstående förslag är också mycket praktiskt - bra bland många tillvägagångssätt.



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 4.0-licensen som det distribueras under.
Loading...