[Gfoss] http://www.regione.toscana.it/-/open

Mar 3 Dic 2013 18:09:53 CET

On Tue, 3 Dec 2013 17:07:27 +0100, Andrea Peri wrote:
> Qui si entra in un mondo ai piu' insospettato e pieno di sorprese.
>
> FAccio una domanda:
> come si fa' a dedurre il charaxcter-set usato per produrre uno
> shapefile ?
>

che io sappia, esiste un unico modo "galileiano"; provando e
riprovando pazientemente, finche' non ci si azzecca
... dopotutto i charset sono "solamente" svariate centinaia :-)
anche la mitica scimmia di Darwin a forza di pestare a casaccio
sulla tastiera ci puo' riuscire (assumendo un tempo illimitato).

> Ovvero. Se arriva uno shapefile , esiste un modo per capire il suo
> character-set ?
> Non credo.
>

non risulta neppure a me: proprio per questo sarebbe decisamente
importante che questa informazione facesse sempre parte integrante
dei metadati, e che venisse indicata con chiara evidenza ogni
volta che si decide di pubblicare un dataset come Open Data.

> L'unica soluzione pratica a volte è tentare , se si riesce a
> stabilire , parlando con chi ha realizzato il dataset, con che 
> sistema
> operativo e con quale software ha lavorato (se si ha fortuna).
> Allora si deve ricorrere a una sorta di indagine indiretta.
>  Chiedendo in quale sistema operativo si è operato e con quale
> software.
> A volte, con un po' di fortuna ci si riesce a risalire.
>

esattamente: la metodologia standard e' proprio questa.
ma almeno a me personalmente e' capitato piu' volte di perdere lunghe
ore (completamente a vuoto, e con irritazione progressivamente
crescente) prima di arrivare a capire che quel determinato Shapefile
"X" era stato prodotto su un vecchio Mac o magari addirittura in
MS-DOS, e che magari non era neppure stato prodotto in Italia ma
in qualche paese piu' esotico.

sicuramente la fortuna aiuta; ma spesso occorre molta tenacia, una
buona dose di know-how, un pizzico di fantasia e soprattutto molto
tempo a disposizione.
tutte cose che in un mondo di facile interoperabilita' universale
e di open data non dovrebbero mai essere strettamente indispensabili 
:-)

> Idem con i lavori svolti in enti che tipicamente lavorano su gruppi ,
> come ad esmepio universita' o altre strutture del mondo accademico.
>  Dove ovviamente i lavori sono organizzati a gruppi, ma all'intenro
> dei quali spesso ogni singolo operatore (studente) lavora come crede
> meglio e come sa' fare. E quindi ci sara' chi usa mac, chi linux e 
> chi
> windows.
> Per cui non è assolutamente infrequente che quello che arriva siano
> dei mix di vari character-sets.
>
> A volte ci è capitato di ricevere dati in forma testuale, dove, nel
> medesimo file di testo, alcune parti erano dotate di CRLF, altre di
> CR e infine alcune solo di LF !!
>

verissimo, confermo: nel corso degli anni e' capitato anche a me
personalmente di trovare qualche dataset "ibrido" che era una
sorta di improbabile "collage/mosaico" tra codifiche incompatibili.
(e purtroppo anche in tutti i casi che ho avuto la sventura di
incontrare personalmente erano sempre prodotti di origine piu'
o meno accademica).

in genere quando si ha l'incredibile sfortuna di incontrare un
mostriciattolo di questa natura le opzioni disponibili sono:

A) frullare tutto direttamente nel secchio della spazzatura senza
    troppi rimpianti
B) perdere intere giornate cercando di rattoppare pazientemente
    tutte le bischerate presenti all'origine
C) far finta di nulla, lasciare tutto cosi' com'e' e sperare
    che nessuno ci faccia mai caso.

chiaramente l'unico approccio razionale e' quello "A" :-D

forse in casi limite come questi sarebbe magari preferibile *non*
pubblicare affatto quei datasets, visto che hanno una qualita'
tecnica cosi' indecentemente infima da renderli praticamente
inutilizzabili per qualsiasi ulteriore riuso o lavoro derivato.

ma in tutti gli altri casi (p.es. SHP o CSV estratti con metodologie
informatiche rigorose e ben controllate a partire da un DBMS)
resto dell'opinione che sarebbe certamente una saggia "best practice"
indicare sempre chiaramente quale charset sia stato utilizzato.

ciao Sandro