Auteur Topic: Universal Search indexeert sommige PDF-bestanden niet  (gelezen 810 keer)

Offline nescafe

  • Bedankjes
  • -Gegeven: 1
  • -Ontvangen: 1
  • Berichten: 3
Universal Search indexeert sommige PDF-bestanden niet
« Gepost op: 28 augustus 2023, 16:38:35 »
Voor een vereniging heb ik een DS423+ ingericht met een share met PDF-bestanden. In Universal Search de share toegevoegd aan de index. Ik kan nu vanuit Windows Explorer zoeken op bestandsinhoud. Dat werkt goed.

Echter merken de gebruikers dat niet alle bestanden juist geïndexeerd worden en inderdaad, ik kan dat verifiëren op mijn eigen DS920+.
Het gaat in dit geval om bestanden gegenereerd door Adobe Scan (OCR). De tekst is goed herkend en is bijv. via Agent Ransack wel te doorzoeken.

Voorbeeld: Trefwoord 'Eibergen' komt in drie bestanden voor:

60138-0

Maar in Explorer maar 2x:

60135-1

Universal Search laat hem ook maar 2x zien. En in SSH:

root@DS920:~# synocontentsearchutils -n backup -s 10000 -q eibergen
query string: eibergen
share name: backup
search count: 2
> doc_id: 1070, path: /volume1/backup/Temp/Aellerinck Hennie x Elsen ten Betsie.pdf
> doc_id: 1087, path: /volume1/backup/Temp/Asschert Johannes Antonius x Bauhuis Johanna Berendina Geertruida.pdf

Wat ik al geprobeerd heb:
  • Update naar 7.2-64570 Update 3
  • Re-index
  • Andere NAS - probleem treedt op bij DS423+ en DS920+

Het bestand (in dit voorbeeld) waar het mis mee gaat heb ik bijgevoegd: * Alferink Johannes Frederikus x Elsen ten Aleida Johanna.pdf (368.88 kB - gedownload 79 keer.)

Als ik zoek op synocontentsearchutils kom ik nergens en met synocontentextract of synocontentextractd kom ik niet verder. Hoe diagnosticeer ik dit probleem? De binaries kan ik niet zoveel mee en de logging (/var/log/synocontentextractd.log, /var/log/messages) geen clues.
  • Mijn Synology: DS920+

Offline Babylonia

  • MVP
  • *
  • Bedankjes
  • -Gegeven: 916
  • -Ontvangen: 1491
  • Berichten: 7.990
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #1 Gepost op: 28 augustus 2023, 18:27:24 »
De wijze om correct gebruik te maken van  Universal Search  lijkt me via de DSM interface van de NAS zelf?
Zoeken via bijv. Windows verkenner, is geen Linux optie van de NAS, maar opties die gelden voor SMB (Windows).

Wat vind je aan bestanden als je gewoon via de DSM web interface  Universal Search  gebruikt.
DS213j   2x 6TB WD Ultrastar     -  DSM 6.2  -  glasvezel 1 Gbps  (Odido) ZyXEL EX5601 + RT1900ac (AP) + Apple Airport Express (bridge)
DS415+  4x 4TB HGST Deskstar  -  DSM 6.2  -  glasvezel 100/100  (KPN) + 2x "SupeWifi" + RT6600ax + RT2600ac + MR2200ac  -  NVDIA Shield TV Pro
DS920+  4x 4TB WD Red Plus     -  DSM 6.2         +         DS420j   4x 4TB WD Red Plus   -  DSM 7.2.2
             Ervaring met routers van  DrayTek, Fritzbox, TP-Link  -  switches Netgear, ZyXEL  -  Access Points TP-Link, Grandstream.....

Offline nescafe

  • Bedankjes
  • -Gegeven: 1
  • -Ontvangen: 1
  • Berichten: 3
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #2 Gepost op: 29 augustus 2023, 10:05:19 »
Universal Search laat ook maar twee van de drie bestanden zien:

60140-0

Zoeken via Verkenner wordt ondersteund:

For Windows computers, you can mount indexed folders via SMB and search through Windows File Explorer.

Universal Search gebruiken is helaas niet de oplossing.. daarnaast qua gebruikerservaring wat beperkt ten opzichte van Windows Verkenner (zeker minder toegankelijk). Ik denk ook niet dat het in de wijze van zoeken zit maar in het indexeringsproces en zoek een manier om dat proces te evalueren.. kan ik dat proces volgen of de database inspecteren?
  • Mijn Synology: DS920+

Offline nescafe

  • Bedankjes
  • -Gegeven: 1
  • -Ontvangen: 1
  • Berichten: 3
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #3 Gepost op: 29 augustus 2023, 10:52:22 »
Dankzij je tip wel iets verder gekomen, Universal Search laat ook de tekst inline zien. Hierin is zichtbaar dat het betreffende woord in de PDF is gesplitst:

60142-0

Het zit dan waarschijnlijk in het bronbestand / de OCR-engine.. dus kijken of ik iets beters dan Adobe Scan kan inzetten voor dit doel.

Dank voor je aanwijzing!
  • Mijn Synology: DS920+

Offline Babylonia

  • MVP
  • *
  • Bedankjes
  • -Gegeven: 916
  • -Ontvangen: 1491
  • Berichten: 7.990
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #4 Gepost op: 29 augustus 2023, 12:04:43 »
Ik denk ook niet dat het in de wijze van zoeken zit maar in het indexeringsproces en zoek een manier om dat proces te evalueren.

Als zaken niet helemaal lopen zoals verwacht, kunt je ook een nieuwe indexering laten uitvoeren.
Als het probleem daar niet in zit.  Start sowieso met goede zoektermen bijv. een jokerteken *  of andere zoekopties.
Er zijn nogal wat mogelijkheden.

https://kb.synology.com/nl-nl/DSM/help/SynoFinder/universalsearch_search?version=7
DS213j   2x 6TB WD Ultrastar     -  DSM 6.2  -  glasvezel 1 Gbps  (Odido) ZyXEL EX5601 + RT1900ac (AP) + Apple Airport Express (bridge)
DS415+  4x 4TB HGST Deskstar  -  DSM 6.2  -  glasvezel 100/100  (KPN) + 2x "SupeWifi" + RT6600ax + RT2600ac + MR2200ac  -  NVDIA Shield TV Pro
DS920+  4x 4TB WD Red Plus     -  DSM 6.2         +         DS420j   4x 4TB WD Red Plus   -  DSM 7.2.2
             Ervaring met routers van  DrayTek, Fritzbox, TP-Link  -  switches Netgear, ZyXEL  -  Access Points TP-Link, Grandstream.....

Offline Briolet

  • Global Moderator
  • MVP
  • *
  • Bedankjes
  • -Gegeven: 180
  • -Ontvangen: 2680
  • Berichten: 16.581
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #5 Gepost op: 29 augustus 2023, 14:45:48 »
Het zit dan waarschijnlijk in het bronbestand / de OCR-engine.. dus kijken of ik iets beters dan Adobe Scan kan inzetten voor dit doel.

Ik had jouw bestand ook op mijn nas gezet. Hij vond eibergen ook niet. Maar inderdaad, als ik op "Eiber" zoek, vind hij jouw bestand wel. (NB. IK zoek met de Mac Finder, maar die gebruikt ook de Universal Search engine)
  • Mijn Synology: DS415+
  • HDD's: 3x 3TB in SHR
  • Extra's: DS212J, RT1900ac

Offline Briolet

  • Global Moderator
  • MVP
  • *
  • Bedankjes
  • -Gegeven: 180
  • -Ontvangen: 2680
  • Berichten: 16.581
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #6 Gepost op: 29 augustus 2023, 14:52:29 »
Alleen vreemd. Als ik met mijn pdf reader de inhoud kopieer en in een tekst-only document plak, dan krijg ik:

Citaat
weduwnaer van
Aleida Johanna ten Elsen
Hij werd geboren te Eibergen op 30 Juli 1889 en Is door een noodlottlg ongeval overleden op 1 febr. 1969 In het r.-k. ziekenhuis te Enschede. Donderdag 6 febr. Is hij begraven op het r.-k. kerkhofvan deSt.Bonlfatlusparochle,Veldmaat
te Haaksbergen.
Hier staat er geen spatie in Eibergen. Vreemd waarom deze iets anders ziet. Misschien is het geen spatie maat een ander non-printing karakter.

PS: De PDF met een Het editor bekijken helpt ook niet, want dan zie ik helemaal geen tekst. Blijkbaar wordt het ascii deel in gecomprimeerde form in de pdf opgeslagen.
OP veel meer plekken laat US een spatie in woorden zien en in de door mij gekopieerde tekst zie ik geen spatie.
  • Mijn Synology: DS415+
  • HDD's: 3x 3TB in SHR
  • Extra's: DS212J, RT1900ac

Offline Birdy

  • Global Moderator
  • MVP
  • *
  • Bedankjes
  • -Gegeven: 1399
  • -Ontvangen: 8046
  • Berichten: 44.175
  • Fijne feestdagen.......
    • Truebase
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #7 Gepost op: 29 augustus 2023, 14:56:07 »
Ik zie ook geen spatie:

60147-0

Overigens, ik zie nog 2 spaties in je printscreen, dat zijn er dan 3 in 1 regel:



CS406      DSM 2.0-0731    DS508      DSM 4.0-2265      DS411+II  DSM 6.2.4-25556-8   DS115J    DSM 7.1.1-42962-5   DS918+    DSM 6.2.4-25556-8
DS107+     DSM 3.1-1639    DS411slim  DSM 6.2.4-25556   DS213J    DSM 6.2.4-25556-7   DS1515+   DSM 6.2.4-25556-8   DS220+    DSM 7.2.2-72806-2
DS107+     DSM 3.1-1639    DS111      DSM 5.2-5967-9    DS413J    DSM 6.2.3-25426-2   DS716+II  DSM 7.2.2-72806-2   RT2600ac  SRM 1.3.1-9346-12
BeeDrive   1TB             BeeServer  BSM 1.2-65567                                                                 MR2200ac  SRM 1.3.1-9346-12

Offline Briolet

  • Global Moderator
  • MVP
  • *
  • Bedankjes
  • -Gegeven: 180
  • -Ontvangen: 2680
  • Berichten: 16.581
Re: Universal Search indexeert sommige PDF-bestanden niet
« Reactie #8 Gepost op: 29 augustus 2023, 15:29:26 »
Die andere spaties waren me ook opgevallen bij US. Daarom blijf ik het vreemd vinden dat als ik de platte tekst uit de pdf kopieer, ik de spaties niet zie. (Zie mijn tekst stukje hierboven)

En bij kopiëren wordt er nooit een spellingcorrectie toegepast. Daarom mijn vermoeden dat er ascii tekens tussen geplakt worden die niet bij leesbare tekens horen. US geeft deze dan als spatie weer en bij een tekst kopie worden ze gewoon weggelaten.

Maar wat het ook is, de scannersoftware is gewoon niet goed. Ik heb in het verleden veel tijdschriften ingespannen met de scannersoftware van Canon. Daar had ik zelden tekstproblemen. Zeker niet in de aantallen als hierboven. Zeker niet als het voorbeeld zo scherp is als hier.

----

Voor de aardigheid heb ik de 1e pagina eens uitgeprint en ingeschat als OCR bestand met de VueScan software:

.Want niemand leelt voor zichzell alleen
en niemand sterlt voor zichzell alleen;
want als wi] leven, het is voor de Heer
en als wi] sterven, het is voor de Heer.' Rom. 14. 7-
Gedenk in uw gebeden
Johannes Frederikus Allerink
weduwnaar van
Aleida Johanna tan Elsen
Hi] werd geboren te Eibergen op 30 juli 1889
en is door een noodlottig ongeval overleden op
1 lebr.19ó9in het r.-k. ziekenhuis te Enschede.
Donderdag 6 lebr. is hi] begraven op het r.-k.
kerkhofvan de St. Bonilatiusparochie,Veld maat
te Haaksbergen.
Onverwachts is vader van ons heengegaan; en
dit plotselinge heengaan valt ons zwaar en
maakt ons droevig.
Toch denken wi] dankbaar aan vader terug als
een bil] mens. die tevreden leefde en bezorgd
was overzijn kinderen. Hi] leefde te midden van
ons als een diepgelovig mens die de zin van
zijn leven zocht bij God.
Dierbare kinderen en kleinkinderen graag was
ik nog een paar ]aar bi] jullie gebleven; maar
hoe oud de mens ook wordt, eemaal komt de
dood en daarmee de eeuwigheid. Vergeet dit
nooit.
Bewaartde vrede onder elkaar en bidt voor mij.


Die scannersoftware doet het goed, hoewel hij wel problemen jet de letter 'j' heeft die deze tekst gebruikt. Vroeger had ik nog OCR software die je bepaalde letters expliciet kon laten leren.Bij VueScan kan dat volgens mij niet. Je kunt alleen de taal instellen, zodat hij op grond daarvan correcties kan uitvoeren.

VueScan kun je hier downloaden. Het is commerciële software, maar de ongeregistreerde versie kan volgens mij wel al ORC doen om te evalueren.
  • Mijn Synology: DS415+
  • HDD's: 3x 3TB in SHR
  • Extra's: DS212J, RT1900ac


 

Scarlet - Bonjour / Universal PnP Discovery / Multi Cast

Gestart door gd11_beBoard Media Server (UPNP/DLNA)

Reacties: 0
Gelezen: 1719
Laatste bericht 28 juni 2011, 06:17:36
door gd11_be
Nieuwe versie van Universal Search (1.0.11-0167 & 1.2.5-0238)

Gestart door BrioletBoard Officiële Packages

Reacties: 18
Gelezen: 3593
Laatste bericht 08 augustus 2018, 14:20:19
door Briolet
Universal search: bij mij nog nooit een resultaat geboden

Gestart door JanSrBoard Officiële Packages

Reacties: 14
Gelezen: 2145
Laatste bericht 24 juli 2023, 12:48:05
door Babylonia
Indexeren door Universal Search kan leiden tot database corruptie?

Gestart door m4v3r1ckBoard Synology DSM 6.1

Reacties: 10
Gelezen: 2995
Laatste bericht 18 juli 2017, 14:29:49
door m4v3r1ck
Universal search - indexeringsdatabase beschadigd, hoe herstellen?

Gestart door macxboBoard Officiële Packages

Reacties: 21
Gelezen: 5246
Laatste bericht 14 juni 2018, 00:52:07
door macxbo