Synology-Forum.nl

Packages => 3rd party Packages => NZBGet => Topic gestart door: Stephan296 op 29 december 2015, 15:05:25

Titel: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 15:05:25
Ik krijg de laatste tijd regelmatig bestanden van een bepaalde release groep.
hier staat het copyright teken in, hier kan linux/nzbget schijnbaar niet niet mee omgaan.
Downloaden is geen probleem, echter het uitpakken werkt niet.
Hij geeft dan een error op het uitpakken.
Na het downloaden de bestanden hernoemen werkt ook niet omdat de bestanden volgens dsm niet te benaderen zijn.
Is hier wat aan te doen, zodat nzbget de leestekens wel pakt?
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Birdy op 29 december 2015, 15:42:53
Voor postprocessing is wel een script, lees deze eens door (http://www.synology-forum.nl/optware-ipkg-telnet/%28handleiding%29-renamen-van-bestanden-met-vreemde-tekens/).
Echter, jij hebt kennelijk OOK problemen met uitpakken maar, dat script kan je ook wel voor het uitpakken draaien. ;)
Je kunt natuurlijk ook via PuTTY, als het uitpakken is mislukt van wegen dat soort tekens, ook handmatig wijzigen.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Hutje op 29 december 2015, 16:45:35
Ik ervaar hetzelfde met SABnzbd.
Echter wordt e.e.a. WEL goed uitgepakt.
Alleen blijven de individuele RAR files achter. die niet weg willen.
Oplossing is om complete folder in File Station te verwijderen.
Lastig is het wel, zodra e.e.a. niet meer 'automatisch' normaal gaat.

Misschien eens een berichtje richting die release groep ?

Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 17:40:25
Ik heb in ieder geval even mijn "locale" aangepast aangezien ik ook een probleem had met mijn leestekens op websites zoals spotweb.
Nu heb ik wel een rename pp-script gevonden, maar ik krijg het nog niet voor elkaar om deze voor het unrar proces uit te laten voeren.

Ben nog druk met google aan het stoeien ;-)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 17:41:16
Zoals je in de link die Birdy al geplaatst had kunt lezen heb ik een python scriptje aangpast zodat je daarmee een folder (+subfolder) kunt scannen en dan worden alle onleesbare tekens eruit gehaalt.
zie:
http://www.synology-forum.nl/optware-ipkg-telnet/(handleiding)-renamen-van-bestanden-met-vreemde-tekens/msg140985/#msg140985

Het probleem is dat er (vaak windows-1252) code pages gebruikt worden om die rar bestanden te maken en dat alle systemen (behalve windows) tegenwoordig met utf-8 werken.

UTF-8 is voor alle ascii karakter gelijk( code 32 t/m 127) aan zowel ascii als windows-1252, maar voor alle overige karakters(in alle talen) gebuikt hij twee bytes.

Het codepage systeem gebruikt de overige codes van een byte (0 t/m 32 en 128 t/m 255) om "vreemde" tekens te maken en dan moet je ook nog weten welke code page gebruikt is.

Een utf-8 systeem snapt daar niets van en met geluk maakt hij er iets leesbaars van maar vaak negeert hij het dan.

Op zich is het niet zo moeilijk om een conversie te maken, maar er zijn vele code pages en als je niet weet welke gebruikt is om het rar bestand te maken blijft het gokken.

Mijn advies is om torrents te gebruiken, die release groepen gebruiken gewoon utf-8.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 18:41:02
Dat script had ik zeker gezien en ook uitgeprobeerd, echter wil ik het in nzbget draaien, na de par check maar voor het unrar proces.
Gewoon een uitdaging ;-)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 19:49:14
Voor het unrar proces lijkt me niet zo zinvol.
Als er in die rar bestandsnamen zitten met diakritiche karakter namen loop je alsnog vast.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Birdy op 29 december 2015, 19:54:57
Misschien wel zinvol als de rar file namen zelf al die tekens heeft ?
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 19:56:27
Hij wil hem niet uitpakken omdat die rar files die tekens bevatten. Daarom wilde ik hem voor het unrar proces laten renamen.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Birdy op 29 december 2015, 19:57:57
Dat schrijf ik  :lol:
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 20:09:38
Dat zeg ik: Gamma
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 20:12:20
In dat geval moet het sript twee keer gedraait worden.

Ik weet het niet meer zeker(heb er een hele tijd geleden eens naar gekeken) maar nzbget heeft toch op verschillende plaatsen mogelijkheden om externe scripts aan te roepen?
Als dat op het juiste moment kan en de bestandsnaam van het rar bestand via zo'n enviroment variable is op te pikken is kan ik wel een scriptje voor je maken die de bestandsnaam omzet naar utf-8.

Zal er morgen wel eens naar kijken, ik heb dat probleem ook al eens opgelost voor autosub als die subtitles in een zip file download, met diakritische karakters in de subs.

Gaat het wel om rar of zip bestanden?
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 20:16:47
Het gaat in dit geval om rar bestanden.
Moet alleen kijken hoe ik dat script voor het rar proces krijg.
Ik heb wel een idee alleen nog niet getest.
Om een script te maken die zowel het renamen als het unrarren aanroept.
Dit script dan bij de instellingen aan te roepen waar de binary unrar wordt aangeroepen.
Snap je het nog ;-)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 20:34:16
Heb even in de wiki van nzbget zitten lezen.
Je kunt een nzbget een postprocess script laten aanroepen die het een en ander voor je doet.

Ik zal kijken of ik een script kan maken die de de naam van de .rar omzet naar utf-8 alsmede de .rar uitpakt en de bestandsnamen daarin ook naar utf-8 omzet.
Moet even zo'n bestand zien te vinden(of te maken) om te kunnen testen.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 20:37:06
Ik heb wel een nzb voor je als je wilt.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 20:44:58
Met nzb's kan ik niet, ik gebruik zelf exclusief torrents.
Ik maak wel wat.
Een tèst.rar bestandje of zo iets.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 21:01:11
Ok ;-)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 21:23:46
Even zitten googlen en er bestaat zo iets al voor nzbget.
zie:
http://forum.nzbget.net/viewtopic.php?f=8&t=1474

Heeft nog een extra optie om video's toe te voegen aan de synology indexer voor videostation.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 21:26:02
Die had ik ook gevonden. maar wordt niet uitgevoerd voor de unrar procedure.
Schijnbaar kun je met bepaalde opdrachten dat wel naar voren roepen maar nog geen idee hoe.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 21:27:29
unrar is toch ook een script?
nzbget zelf doet alleen unparren.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 21:35:55
Ik zie dat hij in nzget unrar aanroept. En die staat in /usr/bin/

Dus theoretisch zou je daar een script in de vorm van een .sh bestand laten draaien.
En in dat sh bestand eerst dat python script laten draaien en daarna unrar aanroepen.
Maar daar moet je dan van allerlei controles inbouwen. Voor het geval dat.....
En of dat wenselijk is ben ik nog niet over uit.
Dan wordt het gewoon van een andere release groep downloaden als er geen optie is om dat script naar voren te halen.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 29 december 2015, 21:43:00
Ik dacht dat nzbget niet zelf aan unrar deed maar dat ook met externe scripts gedaan moest worden.
Maar als nzbget zelf een unrar doet, kun je dat dan uitzetten?

Een unrar in het script kan natuurlijk ook.

EDIT. Volgens de wiki kun je unpack uitzetten.
Ik zal morgen kijken of ik een unrar in dat chartranslator script in kan bouwen.
Dan kan het script eerst de naam van het unrar bestand omzetten naar utf-8 en daarna de bestanden uitpakken inclusief conversie naar utf-8 namen (als er non ascii namen in de rar zitten)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 29 december 2015, 22:25:31
Klopt dat kun je ook nog per categorie uitzetten.
Dit kom ik eigenlijk alleen in films tegen.
Dus plak ik jouw script aan de film categorie ;-)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 30 december 2015, 17:26:54
Ben vandaag even aan het uitproberen geweest.
Het blijkt dat het probleem in unrar zit.
Als je een bestand met unrar uitpakt naar de huidige folder pakt hij dat bestand gewoon uit , ook als er een file inzit met vreemde tekens in de naam.
Als je echter met unrar zo'n bestand naar een andere folder wilt uitpakken, dan zegt unrar dat hij het bestand daar niet kan aanmaken.

Nzbget gebruikt unrar op die manier en dat geeft dus problemen met rar's waarin filesnamen met vreemde tekens voorkomen.
Dat is dus niet op te losen met en script want zo'n scrit moet ookunrar gebruiken.

Als het zip bestanden waren zou het geen probleemzijn,want python heeft support voor zipfilesaan boord,maar niet voor rar files.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 30 december 2015, 17:50:41
ik zat te denken dat als hij hem renamed voor het uitpakken heb je 1 probleem getackeld.
ik kan wel eens kijken of hij hem uitvoert zonder uitpakken ;-)
Even testen....

Script gedraaid zonder uitpakken en dan werkt het wel.
Daarna ziet synology ook gewoon de leestekens en kan ik hem zelf met de hand uitpakken.
Dus als we het unrar proces aan het einde daarvan kunnen plaatsen ben ik klaar ;-) (zo lijkt het)
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 30 december 2015, 18:31:18
Nee dat helpt niet.

Als je met de hand test met bijvoorbeeld het commando:
Citaat
unrar test.rar
Dan werkt het
Maar:
Citaat
unrar test.rar /volume1/video
Werkt niet als er vreemde tekens in de test.rar zitten.
Normaal gesproken zou hij met dat laatste commando de uitgepakte bestanden in /volume1/video neermoeten zetten maar dan krijg je een foutmelding

Nzbget gebruikt het laatste formaat en dat werkt dus niet.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 30 december 2015, 18:43:25
Mmmm dat is nou weer jammer. Vreemde tekens in de bestandsnaam van de .rar of vreemde tekens in de bestanden die in het .rar bestand zijn ingepakt?
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 30 december 2015, 18:50:22
Vreemde tekens in de naam van het rar bestand zouden op te lossen zijn met een script en dan unrar aanroepen vanuit het scipt.
Het probleem zit in bestandsnamen met vreemde tekens die in het rar bestand zitten.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Stephan296 op 30 december 2015, 18:53:22
Mmmm heb net het script gedraaid en dan toont dsm wel de bestanden en dan kan ik ze ook in dsm uitpakken.
Terwijl ze voor het draaien van het script niet zichtbaar zijn.
Dan wordt het toch een andere release groep ben ik bang.
Als het niet anders kan.
Titel: Re: Bestanden met vreemde leestekens niet uit te pakken
Bericht door: Ben(V) op 30 december 2015, 19:04:58
Vrees het wel.
Het probeem ligt bij unrar.
Heb al eens gekeken, maar ook in de relasenotes van nieuwere versies van unrar wordt met geen woord hierover gesproken.

Die focussen zich zoals iedereen op windows.
En windows blijft gewoon knutselen met code pages in plaats van over te gaan op utf-8.
Het is voor Amerikanen geen issue, want het Engels kent allleen maar ascii tekens.