<div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div>Credo di non aver ben sottolineato un dettaglio.<br><br></div>qualsiasi lavoro GIS svolto da un team che al suo interno usa tecnologie non coordinate tra di loro provoca il rimescolamento dei character-set.<br>

</div><br></div></div>Pensa al caso di uso che ti dicevo.<br><br>TI arriva uno shapefile e ti viene chiesto di correggere 2 records.<br></div>Per farlo, apri lo shapefile con qgis, correggi e salvi lo shapefile.<br></div>

Te hai corretto solo due record. <br></div>Quei de records avranno il Character-set del tuo PC.<br><br></div>Ma lo shapefile era stato creato in un altro computer, dotato di un altro character-set.<br>Quindi è nato un mix di CS.<br>

<br></div><div></div><div></div>Certamente la colpa è del formato shapefile, che poiche' non possiede al suo interno una definizione di CS, è soggetto alle idiosincrasie del software e del pc su cui viene editato in un certo momento.<br>

</div>Questa cosa basterebbe da sola a sconsigliare l'impiego dello shapefile per scambiarsi i dati.<br></div>Ma visto che lo shapefile è il formato universale per lo scambio dei dati GIS, come ovviare a questo problema ?<br>

<br></div>L'unic work-around che mi viene in mente , è darsi la regola che anche se si è editato un solo records, sempre rigenerare interamente lo shapefile,<br>mediante il comando "esporta come".<br><div><br>

</div><div>Ma non sono affatto sicuro che questo risolverebbe.<br>Ho infatti il dubbio che in realta' questa azione finisca per incasinare "definitivamente" il dbf dello shapefile.<br><br></div><div><div>E proprio per questo, non credo che chiunque lavora e opera con gli shapefile possa realisticamente affermare di conoscere il Character-set del suo shapefile, a meno che non lo abbia creato ex-novo lui stesso.<br>

<br></div><div><br></div><div>Andrea.<br><br></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">Il giorno 03 dicembre 2013 18:09,  <span dir="ltr"><<a href="mailto:a.furieri@lqt.it" target="_blank">a.furieri@lqt.it</a>></span> ha scritto:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Tue, 3 Dec 2013 17:07:27 +0100, Andrea Peri wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Qui si entra in un mondo ai piu' insospettato e pieno di sorprese.<br>

<br>

FAccio una domanda:<br>

come si fa' a dedurre il charaxcter-set usato per produrre uno<br>

shapefile ?<br>

<br>

</blockquote>

<br></div>

che io sappia, esiste un unico modo "galileiano"; provando e<br>

riprovando pazientemente, finche' non ci si azzecca<br>

... dopotutto i charset sono "solamente" svariate centinaia :-)<br>

anche la mitica scimmia di Darwin a forza di pestare a casaccio<br>

sulla tastiera ci puo' riuscire (assumendo un tempo illimitato).<div class="im"><br>

<br>

<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Ovvero. Se arriva uno shapefile , esiste un modo per capire il suo<br>

character-set ?<br>

Non credo.<br>

<br>

</blockquote>

<br></div>

non risulta neppure a me: proprio per questo sarebbe decisamente<br>

importante che questa informazione facesse sempre parte integrante<br>

dei metadati, e che venisse indicata con chiara evidenza ogni<br>

volta che si decide di pubblicare un dataset come Open Data.<div class="im"><br>

<br>

<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

L'unica soluzione pratica a volte è tentare , se si riesce a<br>

stabilire , parlando con chi ha realizzato il dataset, con che sistema<br>

operativo e con quale software ha lavorato (se si ha fortuna).<br>

Allora si deve ricorrere a una sorta di indagine indiretta.<br>

 Chiedendo in quale sistema operativo si è operato e con quale<br>

software.<br>

A volte, con un po' di fortuna ci si riesce a risalire.<br>

<br>

</blockquote>

<br></div>

esattamente: la metodologia standard e' proprio questa.<br>

ma almeno a me personalmente e' capitato piu' volte di perdere lunghe<br>

ore (completamente a vuoto, e con irritazione progressivamente<br>

crescente) prima di arrivare a capire che quel determinato Shapefile<br>

"X" era stato prodotto su un vecchio Mac o magari addirittura in<br>

MS-DOS, e che magari non era neppure stato prodotto in Italia ma<br>

in qualche paese piu' esotico.<br>

<br>

sicuramente la fortuna aiuta; ma spesso occorre molta tenacia, una<br>

buona dose di know-how, un pizzico di fantasia e soprattutto molto<br>

tempo a disposizione.<br>

tutte cose che in un mondo di facile interoperabilita' universale<br>

e di open data non dovrebbero mai essere strettamente indispensabili :-)<br>

<br>

<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">

Idem con i lavori svolti in enti che tipicamente lavorano su gruppi ,<br>

come ad esmepio universita' o altre strutture del mondo accademico.<br>

 Dove ovviamente i lavori sono organizzati a gruppi, ma all'intenro<br>

dei quali spesso ogni singolo operatore (studente) lavora come crede<br>

meglio e come sa' fare. E quindi ci sara' chi usa mac, chi linux e chi<br>

windows.<br>

Per cui non è assolutamente infrequente che quello che arriva siano<br>

dei mix di vari character-sets.<br>

<br>

A volte ci è capitato di ricevere dati in forma testuale, dove, nel<br></div>

medesimo file di testo, alcune parti erano dotate di CRLF, altre di<div class="im"><br>

CR e infine alcune solo di LF !!<br>

<br>

</div></blockquote>

<br>

verissimo, confermo: nel corso degli anni e' capitato anche a me<br>

personalmente di trovare qualche dataset "ibrido" che era una<br>

sorta di improbabile "collage/mosaico" tra codifiche incompatibili.<br>

(e purtroppo anche in tutti i casi che ho avuto la sventura di<br>

incontrare personalmente erano sempre prodotti di origine piu'<br>

o meno accademica).<br>

<br>

in genere quando si ha l'incredibile sfortuna di incontrare un<br>

mostriciattolo di questa natura le opzioni disponibili sono:<br>

<br>

A) frullare tutto direttamente nel secchio della spazzatura senza<br>

   troppi rimpianti<br>

B) perdere intere giornate cercando di rattoppare pazientemente<br>

   tutte le bischerate presenti all'origine<br>

C) far finta di nulla, lasciare tutto cosi' com'e' e sperare<br>

   che nessuno ci faccia mai caso.<br>

<br>

chiaramente l'unico approccio razionale e' quello "A" :-D<br>

<br>

forse in casi limite come questi sarebbe magari preferibile *non*<br>

pubblicare affatto quei datasets, visto che hanno una qualita'<br>

tecnica cosi' indecentemente infima da renderli praticamente<br>

inutilizzabili per qualsiasi ulteriore riuso o lavoro derivato.<br>

<br>

ma in tutti gli altri casi (<a href="http://p.es" target="_blank">p.es</a>. SHP o CSV estratti con metodologie<br>

informatiche rigorose e ben controllate a partire da un DBMS)<br>

resto dell'opinione che sarebbe certamente una saggia "best practice"<br>

indicare sempre chiaramente quale charset sia stato utilizzato.<br>

<br>

ciao Sandro<br>

<br>

<br>

<br>

</blockquote></div><br><br clear="all"><br>-- <br>-----------------<br>Andrea Peri<br>. . . . . . . . . <br>qwerty àèìòù<br>-----------------<br>

</div>