.\" -*- coding: UTF-8 -*-
.\" Copyright (C) Markus Kuhn, 1995, 2001
.\"
.\" SPDX-License-Identifier: GPL-2.0-or-later
.\"
.\" 1995-11-26  Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
.\"      First version written
.\" 2001-05-11  Markus Kuhn <mgk25@cl.cam.ac.uk>
.\"      Update
.\"
.\"*******************************************************************
.\"
.\" This file was generated with po4a. Translate the source file.
.\"
.\"*******************************************************************
.TH unicode 7 "5 febbraio 2023" "Linux man\-pages 6.03" 
.SH NOME
unicode \- insieme universale di caratteri
.SH DESCRIZIONE
Lo standard internazionale ISO 10646 definisce l'insieme universale di
caratteri (UCS: Universal Character Set)". UCS contiene tutti i caratteri di
tutti gli altri standard per insiemi di caratteri. Garantisce anche
"compatibilità ad andata e ritorno", cioè è possibile costruire tavole di
conversione in modo tale da non perdere nessuna informazione passando da una
qualsiasi altra codifica a UCS e viceversa.
.PP
UCS contiene i caratteri necessari alla rappresentazione di praticamente
tutte le lingue conosciute. Esso comprende non solo i caratteri latino
greco, cirillico, ebreo, arabo, armeno e georgiano, ma anche alfabeti
ideografici cinese, giapponese e coreano han, e i caratteri hiragana,
katakana, hangul, devanagari, bengali, gurmukhi, gujarati, oriya, tamil,
telugu, kannada, malayalam, thai, lao, khmer, bopomofo, tibetano, runico,
etiopico, canadese sillabico, cherokee, mongolo, ogham, myanmar, sinhala,
thaana, yi e altri. Per caratteri non ancora inclusi la ricerca su come
codificarli al meglio è ancora in corso e prima o poi verranno aggiunti. Ciò
potrebbe includere non solo geroglifici e vari linguaggi storici
indo\-europei, ma anche alcuni caratteri artistici selezionati come tengwar,
cirth e klingon. UCS include anche un grande numero di simboli grafici,
tipografici, matematici e scientifici, inclusi quelli forniti da TeX,
Postscript, APL, MS\-DOS, MS\-Windows, Macintosh e font OCR, oltre a molti
sistemi di elaborazione testi e di editoria, e altri se ne stanno
aggiungendo.
.PP
Lo standard UCS (ISO 10646) descrive una architettura di caratteri a 31 bit
consistente di 128 \fIgruppi\fP a 24 bit, ciascuno diviso in 256 \fIpiani\fP a 16
bit, composti da 256 \fIrighe\fP a 8 bit, con 256 \fIcolonne\fP, una per ciascun
carattere. La parte 1 dello standard (ISO 10646\-1) definisce le prime 65534
posizioni (da 0x0000 a 0xfffd), che formano il \fIPiano Multi\-linguistico di Base\fP (BMP), ovvero il piano 0 del gruppo 0. La parte due dello standard
(ISO 10646\-2comune di uta studio dettaglio isca arcosu PAI) aggiunge
caratteri al gruppo 0 al di fuori del BMP in numerosi \fIpiani supplementari\fP
nell'intervallo da 0x10000 a 0x10ffff. Non ci sono piani per l'aggiunta di
caratteri allo standard oltre 0x10ffff, quindi, dell'intero spazio codice,
solo una piccola frazione del gruppo 0 verrà usata nel prossimo futuro. Il
BMP contiene tutti i caratteri che si trovano negli altri insiemi di
caratteri comunemente usati. I piani supplementari aggiunti da ISO 10646\-2
coprono solo caratteri esotici per speciali bisogni scientifici, stampa
dizionario, industria editoriale, protocolli di livello più elevato, e
entusiasti.
.PP
La rappresentazione di ciascun carattere UCS come parola di 2 byte è
chiamato forma UCS\-2 (solo per i caratteri BMP), mentre UCS\-4 è la
rappresentazione di ciascun carattere in una parola a 4 byte. In aggiunta
esistono due forme di codifica UTF\-8 per retrocompatibilità col software di
elaborazione ASCII e UTF\-16 per la gestione della retrocompatibilità dei
caratteri non BMP fino a 0x10ffff del software UCS\-2.
.PP
I caratteri UCS nelle posizioni da 0x0000 a 0x007f coincidono con quelli
classici di US\-ASCII e i caratteri da 0x0000 a 0x00ff coincidono con quelli
dell'insieme ISO 8859\-1 Latin\-1.
.SS "Caratteri combinanti"
Alcuni codici di UCS sono stati assegnati a \fIcaratteri combinanti\fP. Simile
ad un tasto accentato che non avanza in una macchina da scrivere, un
carattere combinante aggiunge un accento al carattere precedente. I
caratteri accentati più importanti hanno un loro codice in UCS, ma questo
meccanismo permette di aggiungere accenti a altri segni diacritici a
qualsiasi carattere. I caratteri combinanti seguono sempre il carattere che
modificano. Ad esempio, il carattere tedesco Ä («A maiuscola romana con
dieresi») può essere rappresentato sia col codice UCS precomposto 0x00c4,
oppure come combinazione di una normale «A maiuscola romana» seguita da una
«dieresi combinante»: 0x0041 0x0308.
.PP
I caratteri combinanti sono essenziali per esempio nella codifica dei
caratteri Thai o per la composizione matematica e per gli utenti
dell'alfabeto internazionale fonetico.
.SS "Livelli di implementazione"
Siccome non ci si aspetta che tutti i sistemi possano supportare meccanismi
avanzati come i caratteri combinanti, ISO 10646\-1 specifica tre \fIlivelli d'implementazione\fP per UCS:
.TP  0.9i
Livello 1
I caratteri combinanti e Hangul Jamo (una variante della codifica
dell'alfabeto coreano, dove le sillabe Hangul sono codificate come tripletta
o coppia di codici vocale/consonante) non sono supportati.
.TP 
Livello 2
Come il livello 1, ma alcuni caratteri combinanti sono permessi in alcuni
alfabeti (per es., tailandese, laotiano, ebraico, arabo, devangari, malese).
.TP 
Livello 3
Tutti i caratteri UCS sono supportati.
.PP
Lo Standard Unicode 3.0 pubblicato dall'Unicode Consortium contiene
esattamente il piano multi\-linguistico di base UCS al livello 3
d'implementazione, come descritto in ISO 10646\-1:2000. Unicode 3.1 ha
aggiunto i piani supplementari dell'ISO 10646\-2. Lo standard Unicode e i
raporti tecnici pubblicati dall'Unicode Consortium forniscono molte
informazioni aggiuntive sulla semantica e sugli usi raccomandati dei vari
caratteri. Essi forniscono linee guida e algoritmi per editing, ordinamento,
comparazione, normalizzazione, conversione e visualizzazione delle stringhe
Unicode.
.SS "Unicode sotto Linux"
Sotto GNU/Linux, il tipo C \fIwchar_t\fP è un tipo intero 32\-bit con segno. I
suoi valori sono sempre interpretati dalla libreria C come valori del codice
UCS (in tutte le localizzazioni), una convenzione che è segnalata alle
applicazioni dalla libreria C di GNU definendo la costante
\fB__STDC_ISO_10646__\fP come specificato nello standard ISO C99.
.PP
UCS/Unicode può essere usato come semplice ASCII nei flussi input/output,
comunicazioni tra terminali, file di testo, nomi file e variabili d'ambiente
nella codifica multi\-byte .B UTF\-8 compatibile ASCII. Per segnalare l'uso di
UTF\-8 come codifica carattere a tutte le applicazioni deve venire
selezionata una \fIlocalizzazione\fP appropriata attraverso variabili
d'ambiente (es., "LANG=en_GB.UTF\-8").
.PP
The \fBnl_langinfo(CODESET)\fP function returns the name of the selected
encoding.  Library functions such as \fBwctomb\fP(3)  and \fBmbsrtowcs\fP(3)  can
be used to transform the internal \fIwchar_t\fP characters and strings into the
system character encoding and back and \fBwcwidth\fP(3)  tells how many
positions (0\[en]2) the cursor is advanced by the output of a character.
.SS "Aree di uso privato (PUA)"
.\" commit 9d85025b0418163fae079c9ba8f8445212de8568
L'intervallo da 0xe000 a 0xf8ff nel Piano multi\-linguistico di base, non
verrà mai assegnato dallo standard a nessun carattere ed è riservato per uso
privato. Per la comunità Linux questo intervallo è stato ulteriormente
suddiviso nell'intervallo da 0xe000 a 0xefff, che può essere usato
dall'utente finale, e nell'area Linux nell'intervallo da 0xf000 a 0xf8ff, le
cui estensioni sono coordinate fra tutti gli utenti di Linux. Il registro
dei caratteri assegnati all'area Linux è al momento mantenuto da LANANA e il
registro stesso è \fIDocumentation/admin\-guide/unicode.rst\fP nei sorgenti del
kernel Linux (o \fIDocumentation/unicode.txt\fP prima di Linux 4.10).
.PP
Altri due piani sono riservati per uso privato, il piano 15 (Supplementary
Private Use Area\-A, intervallo da 0xf0000 a 0xffffd) e il piano 16
(Supplementary Private Use Area\-B, intervallo da 0x100000 a 0x10fffd).
.SS Bibliografia
.IP \[bu] 3
Information technology \[em] Universal Multiple\-Octet Coded Character Set
(UCS) \[em] Part 1: Architecture and Basic Multilingual Plane.
International Standard ISO/IEC 10646\-1, International Organization for
Standardization, Geneva, 2000.
.IP
Questa è la specifica ufficiale di UCS. Disponibile su
.UR http://www.iso.ch/
.UE .
.IP \[bu]
The Unicode Standard, Version 3.0. The Unicode Consortium, Addison\-Wesley,
Reading, MA, 2000, ISBN 0\-201\-61633\-5.
.IP \[bu]
S.\& Harbison, G.\& Steele. C: A Reference Manual. Fourth edition, Prentice
Hall, Englewood Cliffs, 1995, ISBN 0\-13\-326224\-3.
.IP
Un buon testo di riferimento sul linguaggio di programmazione C. La quarta
edizione comprende l'Emendamento 1 del 1994 allo standard ISO C90, che
aggiunge un buon numero di funzioni di libreria C per gestire codifiche di
caratteri lunghi e multibyte, ma non comprende ancora la ISO C99, che ha
migliorato ulteriormente il supporto per i caratteri lunghi e multibyte.
.IP \[bu]
Unicode Technical Reports.
.RS
.UR http://www.unicode.org\:/reports/
.UE
.RE
.IP \[bu]
Markus Kuhn: UTF\-8 and Unicode FAQ for UNIX/Linux.
.RS
.UR http://www.cl.cam.ac.uk\:/\[ti]mgk25\:/unicode.html
.UE
.RE
.IP \[bu]
Bruno Haible: Unicode HOWTO.
.RS
.UR http://www.tldp.org\:/HOWTO\:/Unicode\-HOWTO.html
.UE
.RE
.\" .SH AUTHOR
.\" Markus Kuhn <mgk25@cl.cam.ac.uk>
.SH "VEDERE ANCHE"
\fBlocale\fP(1), \fBsetlocale\fP(3), \fBcharsets\fP(7), \fButf\-8\fP(7)
.PP
.SH TRADUZIONE
La traduzione italiana di questa pagina di manuale è stata creata da
Ottavio G. Rizzo <rizzo@pluto.linux.it>,
Giulio Daprelà <giulio@pluto.it>,
Elisabetta Galli <lab@kkk.it>
e
Marco Curreli <marcocurreli@tiscali.it>
.
.PP
Questa traduzione è documentazione libera; leggere la
.UR https://www.gnu.org/licenses/gpl-3.0.html
GNU General Public License Versione 3
.UE
o successiva per le condizioni di
copyright.
Non ci assumiamo alcuna responsabilità.
.PP
Per segnalare errori nella traduzione di questa pagina di
manuale inviare un messaggio a
.MT pluto-ildp@lists.pluto.it
.ME .