<div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div>Credo di non aver ben sottolineato un dettaglio.<br><br></div>qualsiasi lavoro GIS svolto da un team che al suo interno usa tecnologie non coordinate tra di loro provoca il rimescolamento dei character-set.<br>
</div><br></div></div>Pensa al caso di uso che ti dicevo.<br><br>TI arriva uno shapefile e ti viene chiesto di correggere 2 records.<br></div>Per farlo, apri lo shapefile con qgis, correggi e salvi lo shapefile.<br></div>
Te hai corretto solo due record. <br></div>Quei de records avranno il Character-set del tuo PC.<br><br></div>Ma lo shapefile era stato creato in un altro computer, dotato di un altro character-set.<br>Quindi è nato un mix di CS.<br>
<br></div><div></div><div></div>Certamente la colpa è del formato shapefile, che poiche' non possiede al suo interno una definizione di CS, è soggetto alle idiosincrasie del software e del pc su cui viene editato in un certo momento.<br>
</div>Questa cosa basterebbe da sola a sconsigliare l'impiego dello shapefile per scambiarsi i dati.<br></div>Ma visto che lo shapefile è il formato universale per lo scambio dei dati GIS, come ovviare a questo problema ?<br>
<br></div>L'unic work-around che mi viene in mente , è darsi la regola che anche se si è editato un solo records, sempre rigenerare interamente lo shapefile,<br>mediante il comando "esporta come".<br><div><br>
</div><div>Ma non sono affatto sicuro che questo risolverebbe.<br>Ho infatti il dubbio che in realta' questa azione finisca per incasinare "definitivamente" il dbf dello shapefile.<br><br></div><div><div>E proprio per questo, non credo che chiunque lavora e opera con gli shapefile possa realisticamente affermare di conoscere il Character-set del suo shapefile, a meno che non lo abbia creato ex-novo lui stesso.<br>
<br></div><div><br></div><div>Andrea.<br><br></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">Il giorno 03 dicembre 2013 18:09,  <span dir="ltr"><<a href="mailto:a.furieri@lqt.it" target="_blank">a.furieri@lqt.it</a>></span> ha scritto:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Tue, 3 Dec 2013 17:07:27 +0100, Andrea Peri wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Qui si entra in un mondo ai piu' insospettato e pieno di sorprese.<br>
<br>
FAccio una domanda:<br>
come si fa' a dedurre il charaxcter-set usato per produrre uno<br>
shapefile ?<br>
<br>
</blockquote>
<br></div>
che io sappia, esiste un unico modo "galileiano"; provando e<br>
riprovando pazientemente, finche' non ci si azzecca<br>
... dopotutto i charset sono "solamente" svariate centinaia :-)<br>
anche la mitica scimmia di Darwin a forza di pestare a casaccio<br>
sulla tastiera ci puo' riuscire (assumendo un tempo illimitato).<div class="im"><br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Ovvero. Se arriva uno shapefile , esiste un modo per capire il suo<br>
character-set ?<br>
Non credo.<br>
<br>
</blockquote>
<br></div>
non risulta neppure a me: proprio per questo sarebbe decisamente<br>
importante che questa informazione facesse sempre parte integrante<br>
dei metadati, e che venisse indicata con chiara evidenza ogni<br>
volta che si decide di pubblicare un dataset come Open Data.<div class="im"><br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
L'unica soluzione pratica a volte è tentare , se si riesce a<br>
stabilire , parlando con chi ha realizzato il dataset, con che sistema<br>
operativo e con quale software ha lavorato (se si ha fortuna).<br>
Allora si deve ricorrere a una sorta di indagine indiretta.<br>
 Chiedendo in quale sistema operativo si è operato e con quale<br>
software.<br>
A volte, con un po' di fortuna ci si riesce a risalire.<br>
<br>
</blockquote>
<br></div>
esattamente: la metodologia standard e' proprio questa.<br>
ma almeno a me personalmente e' capitato piu' volte di perdere lunghe<br>
ore (completamente a vuoto, e con irritazione progressivamente<br>
crescente) prima di arrivare a capire che quel determinato Shapefile<br>
"X" era stato prodotto su un vecchio Mac o magari addirittura in<br>
MS-DOS, e che magari non era neppure stato prodotto in Italia ma<br>
in qualche paese piu' esotico.<br>
<br>
sicuramente la fortuna aiuta; ma spesso occorre molta tenacia, una<br>
buona dose di know-how, un pizzico di fantasia e soprattutto molto<br>
tempo a disposizione.<br>
tutte cose che in un mondo di facile interoperabilita' universale<br>
e di open data non dovrebbero mai essere strettamente indispensabili :-)<br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">
Idem con i lavori svolti in enti che tipicamente lavorano su gruppi ,<br>
come ad esmepio universita' o altre strutture del mondo accademico.<br>
 Dove ovviamente i lavori sono organizzati a gruppi, ma all'intenro<br>
dei quali spesso ogni singolo operatore (studente) lavora come crede<br>
meglio e come sa' fare. E quindi ci sara' chi usa mac, chi linux e chi<br>
windows.<br>
Per cui non è assolutamente infrequente che quello che arriva siano<br>
dei mix di vari character-sets.<br>
<br>
A volte ci è capitato di ricevere dati in forma testuale, dove, nel<br></div>
medesimo file di testo, alcune parti erano dotate di CRLF, altre di<div class="im"><br>
CR e infine alcune solo di LF !!<br>
<br>
</div></blockquote>
<br>
verissimo, confermo: nel corso degli anni e' capitato anche a me<br>
personalmente di trovare qualche dataset "ibrido" che era una<br>
sorta di improbabile "collage/mosaico" tra codifiche incompatibili.<br>
(e purtroppo anche in tutti i casi che ho avuto la sventura di<br>
incontrare personalmente erano sempre prodotti di origine piu'<br>
o meno accademica).<br>
<br>
in genere quando si ha l'incredibile sfortuna di incontrare un<br>
mostriciattolo di questa natura le opzioni disponibili sono:<br>
<br>
A) frullare tutto direttamente nel secchio della spazzatura senza<br>
   troppi rimpianti<br>
B) perdere intere giornate cercando di rattoppare pazientemente<br>
   tutte le bischerate presenti all'origine<br>
C) far finta di nulla, lasciare tutto cosi' com'e' e sperare<br>
   che nessuno ci faccia mai caso.<br>
<br>
chiaramente l'unico approccio razionale e' quello "A" :-D<br>
<br>
forse in casi limite come questi sarebbe magari preferibile *non*<br>
pubblicare affatto quei datasets, visto che hanno una qualita'<br>
tecnica cosi' indecentemente infima da renderli praticamente<br>
inutilizzabili per qualsiasi ulteriore riuso o lavoro derivato.<br>
<br>
ma in tutti gli altri casi (<a href="http://p.es" target="_blank">p.es</a>. SHP o CSV estratti con metodologie<br>
informatiche rigorose e ben controllate a partire da un DBMS)<br>
resto dell'opinione che sarebbe certamente una saggia "best practice"<br>
indicare sempre chiaramente quale charset sia stato utilizzato.<br>
<br>
ciao Sandro<br>
<br>
<br>
<br>
</blockquote></div><br><br clear="all"><br>-- <br>-----------------<br>Andrea Peri<br>. . . . . . . . . <br>qwerty àèìòù<br>-----------------<br>
</div>