.\" -*- coding: UTF-8 -*- .\" Copyright (c) 2013, 2014 by Michael Kerrisk .\" and Copyright (c) 2012, 2014 by Eric W. Biederman .\" .\" SPDX-License-Identifier: Linux-man-pages-copyleft .\" .\" .\"******************************************************************* .\" .\" This file was generated with po4a. Translate the source file. .\" .\"******************************************************************* .TH user_namespaces 7 "5 февраля 2023 г." "Linux man\-pages 6.03" .SH ИМЯ user_namespaces \- обзор пользовательских пространств имён Linux .SH ОПИСАНИЕ Обзор пространств имён смотрите в \fBnamespaces\fP(7). .PP .\" FIXME: This page says very little about the interaction .\" of user namespaces and keys. Add something on this topic. .\" .\" ============================================================ .\" Пользовательские пространства имён изолируют идентификаторы и атрибуты безопасности, в частности ID пользователя и ID группы (смотрите \fBcredentials\fP(7)), корневой каталог, ключи (смотрите \fBkeyrings\fP(7)) и мандаты (смотрите \fBcapabilities\fP(7)). Идентификаторы пользователя и группы процесса могут отличаться внутри и снаружи пользовательского пространства имён. В частности, процесс может иметь обычный бесправный пользовательский ID снаружи и ID равный 0 внутри пространства имён; другими словами, процесс имеет доступ ко всем операциям внутри пользовательского пространства имён, но не имеет доступа к привилегированным операциям вне пространства имён. .SS "Вложенные пространства имён, членство пространств имён" User namespaces can be nested; that is, each user namespace\[em]except the initial ("root") namespace\[em]has a parent user namespace, and can have zero or more child user namespaces. The parent user namespace is the user namespace of the process that creates the user namespace via a call to \fBunshare\fP(2) or \fBclone\fP(2) with the \fBCLONE_NEWUSER\fP flag. .PP .\" commit 8742f229b635bf1c1c84a3dfe5e47c814c20b5c8 .\" FIXME Explain the rationale for this limit. (What is the rationale?) The kernel imposes (since Linux 3.11) a limit of 32 nested levels of user namespaces. Calls to \fBunshare\fP(2) or \fBclone\fP(2) that would cause this limit to be exceeded fail with the error \fBEUSERS\fP. .PP Каждый процесс является членом только одного пользовательского пространства имён. Процесс, созданный с помощью \fBfork\fP(2) или \fBclone\fP(2) без флага \fBCLONE_NEWUSER\fP, является членом того же пользовательского пространства имён что и его родитель. Однонитевой процесс может перейти в другое пользовательское пространство имён с помощью \fBsetns\fP(2), если в этом пространстве у него есть мандат \fBCAP_SYS_ADMIN\fP; после перехода он получает полный набор мандатов в этом пространстве имён. .PP Вызов \fBclone\fP(2) или \fBunshare\fP(2) с флагом \fBCLONE_NEWUSER\fP делает новый дочерний (для \fBclone\fP(2)) или вызвавший (для \fBunshare\fP(2)) процесс членом нового пользовательского пространства имён, создаваемого вызовом. .PP .\" .\" ============================================================ .\" Операцию \fBNS_GET_PARENT\fP \fBioctl\fP(2) можно использовать для обнаружения родительской связи между пространствами имён пользователя; смотрите \fBioctl_ns\fP(2). .SS Мандаты Дочерний процесс, созданный \fBclone\fP(2) с флагом \fBCLONE_NEWUSER\fP, запускается в новом пользовательском пространстве имён с полным набором мандатов. Аналогично, процесс, создающий новое пользовательское пространство имён с помощью \fBunshare\fP(2) или переходящий в существующее пользовательское пространство имён с помощью \fBsetns\fP(2), получает полный набор мандатов в этом пространстве имён. С другой стороны, этот процесс не имеет мандатов в родительском (в случае \fBclone\fP(2)) или предыдущем (в случае \fBunshare\fP(2) и \fBsetns\fP(2)) пользовательском пространстве имён, даже если новое пространство имён создано или переход осуществлялся суперпользователем (т. е., процесс с ID пользователя 0 в корневом пространстве имён). .PP Заметим, что вызов \fBexecve\fP(2) приводит к пересчёту мандатов процесса обычным порядком (смотрите \fBcapabilities\fP(7)). Следовательно, если ID пользователя процесс не равно 0 внутри пространства имён или исполняемый файл имеет непустую маску наследования мандатов, то процесс теряет все мандаты. Смотрите описание отображения пользовательских и групповых ID далее. .PP A call to \fBclone\fP(2) or \fBunshare\fP(2) using the \fBCLONE_NEWUSER\fP flag or a call to \fBsetns\fP(2) that moves the caller into another user namespace sets the "securebits" flags (see \fBcapabilities\fP(7)) to their default values (all flags disabled) in the child (for \fBclone\fP(2)) or caller (for \fBunshare\fP(2) or \fBsetns\fP(2)). Note that because the caller no longer has capabilities in its original user namespace after a call to \fBsetns\fP(2), it is not possible for a process to reset its "securebits" flags while retaining its user namespace membership by using a pair of \fBsetns\fP(2) calls to move to another user namespace and then return to its original user namespace. .PP Правила определения наличия мандата у процесса в определённом пользовательском пространстве имён следующие: .IP \[bu] 3 .\" In the 3.8 sources, see security/commoncap.c::cap_capable(): Процесс имеет мандат внутри пользовательского пространства имён, если он является членом этого пространства имён и имеет мандат в своём наборе эффективных мандатов. Процесс может получить мандаты в своём наборе эффективных мандатов различными способами. Например, он может запустить программу с битом set\-user\-ID или исполняемый файл, имеющий мандаты файла. Также процесс может получить мандаты при выполнении \fBclone\fP(2), \fBunshare\fP(2) или \fBsetns\fP(2), как описывалось ранее. .IP \[bu] Если процесс имеет мандат в пользовательском пространстве имён, то он также имеет этот мандат во всех дочерних (и позже удалённых потомках) пространствах имён. .IP \[bu] .\" * The owner of the user namespace in the parent of the .\" * user namespace has all caps. .\" (and likewise associates the effective group ID of the creating process .\" with the namespace). .\" See kernel commit 520d9eabce18edfef76a60b7b839d54facafe1f9 for a fix .\" on this point .\" This includes the case where the process executes a set-user-ID .\" program that confers the effective UID of the creator of the namespace. .\" .\" ============================================================ .\" При создании пользовательского пространства имён ядро записывает эффективный пользовательский ID создающего процесса как «владельца» пространства имён. Процесс, располагающийся в родительском пространстве имён пользовательского пространства имён и чей эффективный пользовательский ID совпадает с владельцем пространства имён, имеет все мандаты в пространстве имён. Предыдущее правило означает, что у процесса также есть все мандаты во всех в последствии удалённых потомках пользовательских пространств имён. Для обнаружения идентификатора пользователя\-владельца пространства имён можно использовать операцию \fBNS_GET_OWNER_UID\fP вызова \fBioctl\fP(2); смотрите \fBioctl_ns\fP(2). .SS "Влияние мандатов внутри пространства имён пользователя" Наличие мандата внутри пространства имён пользователя разрешает процессу выполнять операции (требующие привилегий) с ресурсами, управляемыми только этим пространством имён. Иначе говоря, наличие мандата в пользовательском пространстве имён разрешает процессу выполнять привилегированные операции с ресурсами, которые управляются (не пользовательскими) пространствами имён, принадлежащими (связанными с) пространству имён пользователя (смотрите следующий подраздел). .PP On the other hand, there are many privileged operations that affect resources that are not associated with any namespace type, for example, changing the system (i.e., calendar) time (governed by \fBCAP_SYS_TIME\fP), loading a kernel module (governed by \fBCAP_SYS_MODULE\fP), and creating a device (governed by \fBCAP_MKNOD\fP). Only a process with privileges in the \fIinitial\fP user namespace can perform such operations. .PP .\" fs_flags = FS_USERNS_MOUNT in kernel sources Наличие \fBCAP_SYS_ADMIN\fP внутри пользовательского пространства имён, принадлежащему пространству имён монтирования процесса, позволяет этому процессу создавать привязки монтирования и монтировать следующие типы файловых систем: .PP .RS 4 .PD 0 .IP \[bu] 3 \fI/proc\fP (начиная с Linux 3.8) .IP \[bu] \fI/sys\fP (начиная с Linux 3.8) .IP \[bu] \fIdevpts\fP (начиная с Linux 3.9) .IP \[bu] \fBtmpfs\fP(5) (начиная с Linux 3.9) .IP \[bu] \fIramfs\fP (начиная с Linux 3.9) .IP \[bu] \fImqueue\fP (начиная с Linux 3.9) .IP \[bu] .\" commit b2197755b2633e164a439682fb05a9b5ea48f706 \fIbpf\fP (начиная с Linux 4.4) .IP \[bu] .\" commit 92dbc9dedccb9759c7f9f2f0ae6242396376988f .\" commit 4cb2c00c43b3fe88b32f29df4f76da1b92c33224 \fIoverlayfs\fP (начиная с Linux 5.11) .PD .RE .PP Наличие \fBCAP_SYS_ADMIN\fP внутри пользовательского пространства имён, принадлежащему пространству имён cgroup процесса, позволяет (начиная с Linux 4.6) этому процессу монтировать именованные иерархии файловой системы cgroup версии 2 и cgroup версии 1 (т. е., файловые системы cgroup, монтируемые с параметром \fI"none,name="\fP). .PP Наличие \fBCAP_SYS_ADMIN\fP внутри пользовательского пространства имён, принадлежащему пространству имён PID процесса, позволяет (начиная с Linux 3.8) этому процессу монтировать файловые системы \fI/proc\fP. .PP .\" .\" ============================================================ .\" Однако заметим, что монтирование блочных файловых систем может производиться только процессом, имеющим \fBCAP_SYS_ADMIN\fP в начальном пространстве имён пользователя. .SS "Взаимодействие между пользовательскими и другими типами пространств имён" Начиная с Linux 3.8, непривилегированные процессы могут создавать пользовательские пространства имён, а для создания пространств имён других типов требуется мандат \fBCAP_SYS_ADMIN\fP в пользовательском пространстве имён вызывающего. .PP После создания не пользовательского пространства имён оно принадлежит пользовательскому пространству имён, в котором на момент создания пространства имён создающий процесс являлся членом. Для привилегированных операций над ресурсами, управляемыми не пользовательским пространством имён, от процесса требуется иметь мандаты в пользовательском пространстве имён, которому принадлежит не пользовательское пространство имён. .PP Если вместе с флагами \fBCLONE_NEW*\fP указан флаг \fBCLONE_NEWUSER\fP в вызове \fBclone\fP(2) или \fBunshare\fP(2), то пользовательское пространство имён гарантированно создаётся первым, давая потомку (\fBclone\fP(2)) или вызывающему (\fBunshare\fP(2)) права на остальные пространства имён, создаваемые вызовом. Даже бесправный вызывающий может задать такую комбинацию флагов. .PP При создании нового пространства имён (не пользовательского пространства имён) посредством \fBclone\fP(2) или \fBunshare\fP(2), ядро записывает пользовательское пространство имён создающего процесса как владельца нового пространства имён (эту связь нельзя изменить). Когда процесс в новом пространстве имён в дальнейшем выполняет привилегированные операции, которые работают с глобальными ресурсами, изолированными пространством имён, выполняется проверка прав согласно мандатам процесса в пользовательском пространстве имён, которое ядро связало с новым пространством имён. Например, предположим, что процесс пытается изменить имя узла (\fBsethostname\fP(2)) — ресурс, управляемый пространство имён UTS. В этом случае, ядро будет искать пространство имён пользователя, принадлежащее пространству имён UTS процесса, и проверять что процесс имеет необходимый мандат (\fBCAP_SYS_ADMIN\fP) в этом пространстве имён пользователя. .PP .\" .\" ============================================================ .\" Операцию \fBNS_GET_USERNS\fP \fBioctl\fP(2) можно использовать для обнаружения пространства имён пользователя, которое владеет не пользовательским пространством имён; смотрите \fBioctl_ns\fP(2). .SS "Отображение идентификаторов пользователей и групп: uid_map и gid_map" .\" commit 22d917d80e842829d0ca0a561967d728eb1d6303 В новом созданном пользовательском пространстве имён отсутствует отображение пользовательских ID (ID групп) в родительское пользовательское пространство. Файл \fI/proc/\fPpid\fI/uid_map\fP и \fI/proc/\fPpid\fI/gid_map\fP (доступны начиная с Linux 3.5) предоставляют отображения пользовательских и групповых ID внутри пользовательского пространства имён для процесса \fIpid\fP. Эти файлы можно читать для просмотра отображений в пользовательском пространстве имён и писать (однократно) для определения отображений. .PP В следующих параграфах объясняется формат \fIuid_map\fP; \fIgid_map\fP имеет тот же формат, но каждый экземпляр «ID пользователя» заменяется на «ID группы». .PP Файл \fIuid_map\fP предоставляет отображение пользовательских ID из пользовательского пространства имён процесса \fIpid\fP в пользовательское пространство имён процесса, который открыл \fIuid_map\fP (но смотрите уточнение далее). Другими словами, процессы, которые находятся в разных пользовательских пространствах имён, возможно будут видеть разные значения при чтении соответствующего файла \fIuid_map\fP, в зависимости от отображений пользовательских ID у пользовательских пространств имён читающего процесса. .PP Каждая строка в файле \fIuid_map\fP определяет отображение 1\-в\-1 непрерывного диапазона пользовательских ID между двумя пользовательскими пространствами имён (при создании пользовательского пространства имён этот файл пуст). В каждой строке содержится три числа через пробел. Первые два числа определяют начальный пользовательский ID в каждом из двух пользовательских пространств имён. Третье число определяет длину отображаемого диапазона. Эти поля рассматриваются так: .IP (1) 5 Начало диапазона пользовательских ID в пользовательском пространстве имён процесса \fIpid\fP. .IP (2) Начало диапазона пользовательских ID, на который отображаются пользовательские ID, указанные в первом поле. Интерпретация второго поля зависит от того, находится ли процесс, открывший \fIuid_map\fP, и процесс \fIpid\fP, в одном пользовательском пространстве имён: .RS .IP (а) 5 Если два процесса находятся в разных пользовательских пространствах имён: поле два — начало диапазона пользовательских ID в пользовательском пространстве имён процесса, который открыл \fIuid_map\fP. .IP (б) Если два процесса находятся в одном пользовательском пространстве имён: поле два — начало диапазона пользовательских ID в родительском пользовательском пространстве имён процесса \fIpid\fP. Это позволяет открывшему \fIuid_map\fP (обычно открывают \fI/proc/self/uid_map\fP) видеть отображение пользовательских ID в пользовательском пространстве имён процесса, создавшего это пользовательское пространство имён. .RE .IP (3) Длина диапазона пользовательских ID, выполняющего отображение между двумя пользовательскими пространствами имён. .PP System calls that return user IDs (group IDs)\[em]for example, \fBgetuid\fP(2), \fBgetgid\fP(2), and the credential fields in the structure returned by \fBstat\fP(2)\[em]return the user ID (group ID) mapped into the caller's user namespace. .PP Когда процесс обращается к файлу, его ID пользователя и группы отображаются в начальном пользовательском пространстве имён с целью проверки прав доступа и назначенного ID при создании файла. Когда процесс получает ID пользователя и группы файла через \fBstat\fP(2), то ID отображаются в обратном направлении, для создания значений, относительно отображений ID пользователя и группы процесса. .PP Начальное пользовательское пространство имён не имеет родительского пространства имён, но для однородности, для него ядро предоставляет фиктивные файлы отображения ID пользователей и групп. Посмотрим на файл \fIuid_map\fP (в \fIgid_map\fP тоже самое) из оболочки в начальном пространстве имён: .PP .in +4n .EX $ \fBcat /proc/$$/uid_map\fP 0 0 4294967295 .EE .in .PP .\" .\" ============================================================ .\" Данное отображение показывает, что диапазон начинающийся с пользовательского ID 0 в этом пространстве имён, отображается в диапазон, начинающийся, с 0, в (несуществующее) родительское пространство имён, и длина диапазона равна самому большому 32\-битному беззнаковому целому. Значение 4294967295 (32\-битное знаковое значение \-1) оставлено без отображения. Предназначение: \fI(uid_t)\~\-\1\fP используется в некоторых интерфейсах (например, \fBsetreuid\fP(2)) для указания «отсутствия ID пользователя». Оставление \fI(uid_t)\~\-\1\fP без отображения и его не использование гарантирует, что при использовании этих интерфейсов не будет проблем). .SS "Отображение идентификаторов пользователей и групп: запись в uid_map и gid_map" После создания нового пользовательского пространства имён в файл \fIuid_map\fP \fIодин\fP из процессов в пространстве имён может выполнить \fIоднократную\fP запись для определения отображения пользовательских ID в новом пользовательском пространстве имён. Повторная попытка записи в файл \fIuid_map\fP в пользовательском пространстве имён завершится с ошибкой \fBEPERM\fP. Эти же правила применимы к файлам \fIgid_map\fP. .PP The lines written to \fIuid_map\fP (\fIgid_map\fP) must conform to the following validity rules: .IP \[bu] 3 В трёх полях должны быть корректные числа и последнее поле должно быть больше 0. .IP \[bu] Строки заканчиваются символами новой строки. .IP \[bu] .\" 5*12-byte records could fit in a 64B cache line .\" commit 6397fac4915ab3002dc15aae751455da1a852f25 Существует ограничение на количество строк в файле. В Linux 4.14 и старее оно установлено (произвольно) равным пятью строкам. Начиная с Linux 4.14 его значение равно 340 строкам. Также, количество байт, записываемых в файл, должно быть меньше размера системной страницы, и запись должна выполняться в начало файла (т. е., нельзя использовать \fBlseek\fP(2) и \fBpwrite\fP(2) для записи в файл при ненулевом смещении). .IP \[bu] .\" commit 0bd14b4fd72afd5df41e9fd59f356740f22fceba Диапазон пользовательских ID (групповых ID), указанный в каждой строке, не должен перекрываться с диапазонами в других строках. В первой реализации (Linux 3.8) это требование удовлетворялось простейшим способом, который задавал другое требование: значения в полях 1 и 2 следующих одна за одной строк, должны увеличиваться, что не давало создавать некоторые корректные отображения. В Linux 3.9 и новее это ограничение было снято, и допустим любой набор не перекрывающихся отображений. .IP \[bu] В файл должна быть записана, как минимум, одна строка. .PP Попытки записи, нарушающие перечисленные выше правила, завершаются с ошибкой \fBEINVAL\fP. .PP In order for a process to write to the \fI/proc/\fPpid\fI/uid_map\fP (\fI/proc/\fPpid\fI/gid_map\fP) file, all of the following permission requirements must be met: .IP \[bu] 3 Записывающий процесс должен иметь мандат \fBCAP_SETUID\fP (\fBCAP_SETGID\fP) в пользовательском пространстве имён процесса \fIpid\fP. .IP \[bu] Записывающий процесс должен находиться в пользовательском пространстве имён процесса \fIpid\fP или быть родительским пользовательским пространством имён процесса \fIpid\fP. .IP \[bu] Отображаемые пользовательские ID (групповые ID) должны иметь соответствующее отображение в родительском пользовательском пространстве имён. .IP \[bu] If updating \fI/proc/\fPpid\fI/uid_map\fP to create a mapping that maps UID 0 in the parent namespace, then one of the following must be true: .RS .IP (а) 5 if writing process is in the parent user namespace, then it must have the \fBCAP_SETFCAP\fP capability in that user namespace; or .IP (б) if the writing process is in the child user namespace, then the process that created the user namespace must have had the \fBCAP_SETFCAP\fP capability when the namespace was created. .RE .IP .\" commit db2e718a47984b9d71ed890eb2ea36ecf150de18 This rule has been in place since Linux 5.12. It eliminates an earlier security bug whereby a UID 0 process that lacks the \fBCAP_SETFCAP\fP capability, which is needed to create a binary with namespaced file capabilities (as described in \fBcapabilities\fP(7)), could nevertheless create such a binary, by the following steps: .RS .IP (1) 5 Create a new user namespace with the identity mapping (i.e., UID 0 in the new user namespace maps to UID 0 in the parent namespace), so that UID 0 in both namespaces is equivalent to the same root user ID. .IP (2) Since the child process has the \fBCAP_SETFCAP\fP capability, it could create a binary with namespaced file capabilities that would then be effective in the parent user namespace (because the root user IDs are the same in the two namespaces). .RE .IP \[bu] Применимо к одному из двух случаев: .RS .IP (а) 5 \fIИли\fP записывающий процесс имеет мандат \fBCAP_SETUID\fP (\fBCAP_SETGID\fP) в \fIродительском\fP пользовательском пространстве имён. .RS .IP \[bu] 3 В дальнейшем ограничения не применяются: процесс может создавать отображения в произвольные пользовательские ID (групповые ID) в родительском пользовательском пространстве имён. .RE .IP (б) \fIИли\fP в противном случае накладываются следующие (все) ограничения: .RS .IP \[bu] 3 Данные, записываемые в \fIuid_map\fP (\fIgid_map\fP), должны состоять из одной строки, которая отображает эффективный пользовательский ID (групповой ID) записывающего процесса в родительском пользовательском пространстве имён в пользовательский ID (групповой ID) в пользовательском пространстве имён. .IP \[bu] Записывающий процесс должен иметь мандат тот же эффективный пользовательский ID что и процесс, который создал пользовательское пространство имён. .IP \[bu] In the case of \fIgid_map\fP, use of the \fBsetgroups\fP(2) system call must first be denied by writing \[dq]\fIdeny\fP\[dq] to the \fI/proc/\fPpid\fI/setgroups\fP file (see below) before writing to \fIgid_map\fP. .RE .RE .PP .\" .\" ============================================================ .\" Попытки записи, нарушающие перечисленные выше правила, завершаются с ошибкой \fBEPERM\fP. .SS "Project ID mappings: projid_map" Similarly to user and group ID mappings, it is possible to create project ID mappings for a user namespace. (Project IDs are used for disk quotas; see \fBsetquota\fP(8) and \fBquotactl\fP(2).) .PP .\" commit f76d207a66c3a53defea67e7d36c3eb1b7d6d61d Project ID mappings are defined by writing to the \fI/proc/\fPpid\fI/projid_map\fP file (present since Linux 3.7). .PP The validity rules for writing to the \fI/proc/\fPpid\fI/projid_map\fP file are as for writing to the \fIuid_map\fP file; violation of these rules causes \fBwrite\fP(2) to fail with the error \fBEINVAL\fP. .PP The permission rules for writing to the \fI/proc/\fPpid\fI/projid_map\fP file are as follows: .IP \[bu] 3 Записывающий процесс должен находиться в пользовательском пространстве имён процесса \fIpid\fP или быть родительским пользовательским пространством имён процесса \fIpid\fP. .IP \[bu] The mapped project IDs must in turn have a mapping in the parent user namespace. .PP .\" .\" ============================================================ .\" Violation of these rules causes \fBwrite\fP(2) to fail with the error \fBEPERM\fP. .SS "Взаимодействие с системными вызовами, которые изменяют UID или GID процесса." В пользовательском пространстве имён, в котором не выполнялась запись в файл \fIuid_map\fP, системные вызовы, изменяющие ID пользователя, будут завершаться с ошибкой. Подобными образом, если не выполнялась запись в файл \fIgid_map\fP, то системные вызовы, изменяющие ID группы, будут завершаться с ошибкой. После записи в файл \fIuid_map\fP и \fIgid_map\fP только отображённые значения могут использоваться в системных вызовах, изменяющих ID пользователя или группы. .PP Для ID пользователя, это относится к следующим системным вызовам: \fBsetuid\fP(2), \fBsetfsuid\fP(2), \fBsetreuid\fP(2) и \fBsetresuid\fP(2). Для ID группы, это относится к следующим системным вызовам: \fBsetgid\fP(2), \fBsetfsgid\fP(2), \fBsetregid\fP(2), \fBsetresgid\fP(2) и \fBsetgroups\fP(2). .PP .\" Things changed in Linux 3.19 .\" commit 9cc46516ddf497ea16e8d7cb986ae03a0f6b92f8 .\" commit 66d2f338ee4c449396b6f99f5e75cd18eb6df272 .\" http://lwn.net/Articles/626665/ .\" .\" ============================================================ .\" Writing \[dq]\fIdeny\fP\[dq] to the \fI/proc/\fPpid\fI/setgroups\fP file before writing to \fI/proc/\fPpid\fI/gid_map\fP will permanently disable \fBsetgroups\fP(2) in a user namespace and allow writing to \fI/proc/\fPpid\fI/gid_map\fP without having the \fBCAP_SETGID\fP capability in the parent user namespace. .SS "The /proc/\fIpid\fP/setgroups file" .\" .\" commit 9cc46516ddf497ea16e8d7cb986ae03a0f6b92f8 .\" commit 66d2f338ee4c449396b6f99f5e75cd18eb6df272 .\" http://lwn.net/Articles/626665/ .\" http://web.nvd.nist.gov/view/vuln/detail?vulnId=CVE-2014-8989 .\" The \fI/proc/\fPpid\fI/setgroups\fP file displays the string \[dq]\fIallow\fP\[dq] if processes in the user namespace that contains the process \fIpid\fP are permitted to employ the \fBsetgroups\fP(2) system call; it displays \[dq]\fIdeny\fP\[dq] if \fBsetgroups\fP(2) is not permitted in that user namespace. Note that regardless of the value in the \fI/proc/\fPpid\fI/setgroups\fP file (and regardless of the process's capabilities), calls to \fBsetgroups\fP(2) are also not permitted if \fI/proc/\fPpid\fI/gid_map\fP has not yet been set. .PP A privileged process (one with the \fBCAP_SYS_ADMIN\fP capability in the namespace) may write either of the strings \[dq]\fIallow\fP\[dq] or \[dq]\fIdeny\fP\[dq] to this file \fIbefore\fP writing a group ID mapping for this user namespace to the file \fI/proc/\fPpid\fI/gid_map\fP. Writing the string \[dq]\fIdeny\fP\[dq] prevents any process in the user namespace from employing \fBsetgroups\fP(2). .PP Сущность ограничений, описанных в предыдущем абзаце в том, чтобы разрешить запись в \fI/proc/\fPpid\fI/setgroups\fP только когда запрещено вызывать \fBsetgroups\fP(2), так как \fI/proc/\fPpid\fI/gid_map\fP не настроен. Это гарантирует, что процесс не сможет перейти из состояния, в котором \fBsetgroups\fP(2) разрешён, в состояние, в котором \fBsetgroups\fP(2) запрещён; процесс может переходить только из состояния, когда \fBsetgroups\fP(2) запрещён, в состояние, когда \fBsetgroups\fP(2) разрешён. .PP The default value of this file in the initial user namespace is \[dq]\fIallow\fP\[dq]. .PP Once \fI/proc/\fPpid\fI/gid_map\fP has been written to (which has the effect of enabling \fBsetgroups\fP(2) in the user namespace), it is no longer possible to disallow \fBsetgroups\fP(2) by writing \[dq]\fIdeny\fP\[dq] to \fI/proc/\fPpid\fI/setgroups\fP (the write fails with the error \fBEPERM\fP). .PP Дочернее пользовательское пространство имён наследует значение \fI/proc/\fPpid\fI/setgroups\fP своего родителя. .PP If the \fIsetgroups\fP file has the value \[dq]\fIdeny\fP\[dq], then the \fBsetgroups\fP(2) system call can't subsequently be reenabled (by writing \[dq]\fIallow\fP\[dq] to the file) in this user namespace. (Attempts to do so fail with the error \fBEPERM\fP.) This restriction also propagates down to all child user namespaces of this user namespace. .PP .\" .\" /proc/PID/setgroups .\" [allow == setgroups() is allowed, "deny" == setgroups() is disallowed] .\" * Can write if have CAP_SYS_ADMIN in NS .\" * Must write BEFORE writing to /proc/PID/gid_map .\" .\" setgroups() .\" * Must already have written to gid_map .\" * /proc/PID/setgroups must be "allow" .\" .\" /proc/PID/gid_map -- writing .\" * Must already have written "deny" to /proc/PID/setgroups .\" .\" ============================================================ .\" The \fI/proc/\fPpid\fI/setgroups\fP file was added in Linux 3.19, but was backported to many earlier stable kernel series, because it addresses a security issue. The issue concerned files with permissions such as "rwx\-\-\-rwx". Such files give fewer permissions to "group" than they do to "other". This means that dropping groups using \fBsetgroups\fP(2) might allow a process file access that it did not formerly have. Before the existence of user namespaces this was not a concern, since only a privileged process (one with the \fBCAP_SETGID\fP capability) could call \fBsetgroups\fP(2). However, with the introduction of user namespaces, it became possible for an unprivileged process to create a new namespace in which the user had all privileges. This then allowed formerly unprivileged users to drop groups and thus gain file access that they did not previously have. The \fI/proc/\fPpid\fI/setgroups\fP file was added to address this security issue, by denying any pathway for an unprivileged process to drop groups with \fBsetgroups\fP(2). .SS "Неотображённые пользовательские и групповые ID" .\" from_kuid_munged(), from_kgid_munged() Есть несколько мест, где в пользовательском пространстве могут появиться неотображённые пользовательские ID (групповые ID). Например, первый процесс в новом пользовательском пространстве имён может вызвать \fBgetuid\fP(2) до определения отображения пользовательских ID для пространства имён. В большинстве случаев, неотображённый пользовательский ID преобразуется в пользовательский ID (групповой ID) переполнения (overflow); значение по умолчанию для пользовательского ID (группового ID) переполнения равно 65534. Смотрите описание \fI/proc/sys/kernel/overflowuid\fP и \fI/proc/sys/kernel/overflowgid\fP в \fBproc\fP(5). .PP .\" also SO_PEERCRED Случаи, где неотображённые ID отображаются в таком виде, относятся к системным вызовам, которые возвращают пользовательские ID (\fBgetuid\fP(2), \fBgetgid\fP(2) и подобные), мандаты, передаваемые через доменный сокет UNIX, мандаты, возвращаемые \fBstat\fP(2), \fBwaitid\fP(2) и System V IPC «ctl»\-операциями \fBIPC_STAT\fP, мандаты, показываемые в \fI/proc/\fPpid\fI/status\fP и файлах в \fI/proc/sysvipc/*\fP, мандаты, возвращаемые в поле \fIsi_uid\fP структуры \fIsiginfo_t\fP, полученной по сигналу (смотрите \fBsigaction\fP(2)), мандаты, записываемые в файл учёта процесса (смотрите \fBacct\fP(5)), и мандаты, возвращаемые с уведомлениями очереди сообщений POSIX (смотрите \fBmq_notify\fP(3)). .PP .\" from_kuid(), from_kgid() .\" Also F_GETOWNER_UIDS is an exception .\" .\" ============================================================ .\" Есть один известный случай, где неотображённый пользовательский и групповой ID \fIне\fP преобразуется в соответствующее значение ID переполнения. Если при просмотре файла \fIuid_map\fP или \fIgid_map\fP обнаруживается, что для второго поля нет отображения, то поле отображается как 4294967295 (\-1 для беззнакового целого). .SS "Доступ к файлам" .\" .\" ============================================================ .\" In order to determine permissions when an unprivileged process accesses a file, the process credentials (UID, GID) and the file credentials are in effect mapped back to what they would be in the initial user namespace and then compared to determine the permissions that the process has on the file. The same is also true of other objects that employ the credentials plus permissions mask accessibility model, such as System V IPC objects. .SS "Операции с файловыми мандатами" Некоторые мандаты позволяют процессу обходить различные ограничения, налагаемые ядром на выполнение операций над файлами, принадлежащими другим пользователям или группам. Список мандатов: \fBCAP_CHOWN\fP, \fBCAP_DAC_OVERRIDE\fP, \fBCAP_DAC_READ_SEARCH\fP, \fBCAP_FOWNER\fP и \fBCAP_FSETID\fP. .PP Внутри пользовательского пространства имён эти мандаты позволяют процессу обходить правила, если процесс имеет соответствующий мандат на файле, подразумевающий что: .IP \[bu] 3 процесс имеет соответствующий эффективный мандат в своём пространстве имён пользователя; и .IP \[bu] файловые ID пользователя и группы корректно отображаются в пользовательскомпространстве имён. .PP .\" These are the checks performed by the kernel function .\" inode_owner_or_capable(). There is one exception to the exception: .\" overriding the directory sticky permission bit requires that .\" the file has a valid mapping for both its UID and GID. .\" .\" ============================================================ .\" Мандат \fBCAP_FOWNER\fP учитывается по\-другому: it allows a process to bypass the corresponding rules so long as at least the file's user ID has a mapping in the user namespace (т. е., файловый ID группы может не иметь корректного отображения). .SS "Программы с установленными битами set\-user\-ID и set\-group\-ID" .\" .\" ============================================================ .\" Когда процесс внутри пользовательского пространства имён выполняет программу с установленным битом set\-user\-ID (set\-group\-ID), то эффективный ID пользователя (группы) внутри пространства имён изменяется на значение, отображённое для ID пользователя (группы) файла. Однако, если ID пользователя \fIили\fP группы файла не имеет отображения внутри пространства имён, то бит set\-user\-ID (set\-group\-ID) просто игнорируется: выполняется новая программа, но эффективный ID пользователя (группы) остаётся не изменённым (такое поведение зеркально семантике выполнения программы с set\-user\-ID или set\-group\-ID, располагающейся в файловой системе, которая была смонтирована с флагом \fBMS_NOSUID\fP, как описано в \fBmount\fP(2)). .SS Разное .\" Когда ID пользователя и группы процесса передаются через доменный сокет UNIX в процесс в другом пользовательском пространстве имён (смотрите описание \fBSCM_CREDENTIALS\fP в \fBunix\fP(7)), то они транслируются в соответствующие значения согласно отображению ID пользователя и группы принимающего процесса. .SH СТАНДАРТЫ .\" Пространства имён есть только в Linux. .SH ЗАМЕЧАНИЯ .\" .\" ============================================================ .\" За эти годы в ядро Linux добавлено много свойств, которые были доступны только привилегированным пользователям, так как их возможности слишком велики, чтобы наделять ими приложения с set\-user\-ID. В целом, становится безопасно разрешать пользователю root в пользовательском пространстве имён использовать эти свойства, так как будучи в пользовательском пространстве имён, он не может получить больше прав, чем имеет root в пользовательском пространстве имён. .SS "Global root" .\" .\" ============================================================ .\" The term "global root" is sometimes used as a shorthand for user ID 0 in the initial user namespace. .SS Доступность Для использования пользовательских пространств имён ядро должно быть собрано с параметром \fBCONFIG_USER_NS\fP. Пользовательские пространства имён требуют поддержки во многих подсистемах ядра. Если в ядре задействована неподдерживаемая подсистема, то включить поддержку пользовательских пространств имён невозможно. .PP .\" commit d6970d4b726cea6d7a9bc4120814f95c09571fc3 .\" В Linux 3.8 самые важные подсистемы поддерживают пользовательские пространства имён, но значительное количество файловых систем не имеют инфраструктуры для отображения пользовательских и групповых ID между пользовательскими пространствами имён. В Linux 3.9 добавлена требуемая поддержка инфраструктуры во многие неподдерживаемые файловые системы (Plan 9 (9P), Andrew File System (AFS), Ceph, CIFS, CODA, NFS и OCFS2). В Linux 3.12 добавлена поддержка в последние основные файловые системы (XFS). .SH ПРИМЕРЫ The program below is designed to allow experimenting with user namespaces, as well as other types of namespaces. It creates namespaces as specified by command\-line options and then executes a command inside those namespaces. The comments and \fIusage\fP() function inside the program provide a full explanation of the program. The following shell session demonstrates its use. .PP Сначала, посмотрим на окружение выполнения: .PP .in +4n .EX $ \fBuname \-rs\fP # требуется Linux 3.8 или новее Linux 3.8.0 $ \fBid \-u\fP # работа от непривилегированного пользователя 1000 $ \fBid \-g\fP 1000 .EE .in .PP Теперь запустим новую оболочку в новых пользовательском (\fI\-U\fP), монтирования (\fI\-m\fP) и PID (\fI\-p\fP) пространствах имён с пользовательским (\fI\-M\fP) и групповым ID (\fI\-G\fP) 1000, отображающимся в 0 внутри пользовательского пространства имён: .PP .in +4n .EX $ \fB./userns_child_exec \-p \-m \-U \-M \[aq]0 1000 1\[aq] \-G \[aq]0 1000 1\[aq] bash\fP .EE .in .PP У оболочки PID равен 1, так как это первый процесс в новом пространстве имён PID: .PP .in +4n .EX bash$ \fBecho $$\fP 1 .EE .in .PP Смонтируем новую файловую систему \fI/proc\fP и просмотрим все процессы, видимые в новом пространстве имён PID; убедимся, что оболочка не видит ни одного процесса вне своего пространства имён PID: .PP .in +4n .EX bash$ \fBmount \-t proc proc /proc\fP bash$ \fBps ax\fP PID TTY STAT TIME COMMAND 1 pts/3 S 0:00 bash 22 pts/3 R+ 0:00 ps ax .EE .in .PP Внутри пользовательского пространства имён идентификаторы пользователя и группы оболочки равны 0, и она имеет полный набор разрешённых и эффективных мандатов: .PP .in +4n .EX bash$ \fBcat /proc/$$/status | egrep \[aq]\[ha][UG]id\[aq]\fP Uid: 0 0 0 0 Gid: 0 0 0 0 bash$ \fBcat /proc/$$/status | egrep \[aq]\[ha]Cap(Prm|Inh|Eff)\[aq]\fP CapInh: 0000000000000000 CapPrm: 0000001fffffffff CapEff: 0000001fffffffff .EE .in .SS "Исходный код программы" \& .EX /* userns_child_exec.c Лицензируется на условиях Универсальной общественной лицензии GNU версии 2 и новее Создаёт дочерний процесс, который запускает командную оболочку в новых пространствах имён; может выполнять отображение UID и GID, если они указаны при создании пользовательского пространства имён. */ #define _GNU_SOURCE #include #include #include #include #include #include #include #include #include #include #include #include struct child_args { char **argv; /* команда, выполняемая потомком с параметрами */ int pipe_fd[2]; /* канал для синхронизации родителя и потомка */ }; static int verbose; static void usage(char *pname) { fprintf(stderr, "Usage: %s [options] cmd [arg...]\en\en", pname); fprintf(stderr, "Create a child process that executes a shell " "command in a new user namespace,\en" "and possibly also other new namespace(s).\en\en"); fprintf(stderr, "Options can be:\en\en"); #define fpe(str) fprintf(stderr, " %s", str); fpe("\-i New IPC namespace\en"); fpe("\-m New mount namespace\en"); fpe("\-n New network namespace\en"); fpe("\-p New PID namespace\en"); fpe("\-u New UTS namespace\en"); fpe("\-U New user namespace\en"); fpe("\-M uid_map Specify UID map for user namespace\en"); fpe("\-G gid_map Specify GID map for user namespace\en"); fpe("\-z Map user\[aq]s UID and GID to 0 in user namespace\en"); fpe(" (equivalent to: \-M \[aq]0 1\[aq] \-G \[aq]0 1\[aq])\en"); fpe("\-v Display verbose messages\en"); fpe("\en"); fpe("If \-z, \-M, or \-G is specified, \-U is required.\en"); fpe("It is not permitted to specify both \-z and either \-M or \-G.\en"); fpe("\en"); fpe("Map strings for \-M and \-G consist of records of the form:\en"); fpe("\en"); fpe(" ID\-inside\-ns ID\-outside\-ns len\en"); fpe("\en"); fpe("A map string can contain multiple records, separated" " by commas;\en"); fpe("the commas are replaced by newlines before writing" " to map files.\en"); exit(EXIT_FAILURE); } /* Update the mapping file \[aq]map_file\[aq], with the value provided in \[aq]mapping\[aq], a string that defines a UID or GID mapping. A UID or GID mapping consists of one or more newline\-delimited records of the form: ID\-внутри\-ns ID\-снаружи\-ns длина Требовать от пользователя указывать строку с символами новой строки в командной строке неприемлемо. Поэтому мы позволим использовать для разделения записей запятые и заменим их символами новой строки перед записью строки в файл. */ static void update_map(char *mapping, char *map_file) { int fd; size_t map_len; /* Length of \[aq]mapping\[aq] */ /* Заменяем запятые на символы новой строки в строке отображения. */ map_len = strlen(mapping); for (size_t j = 0; j < map_len; j++) if (mapping[j] == \[aq],\[aq]) mapping[j] = \[aq]\en\[aq]; fd = open(map_file, O_RDWR); if (fd == \-1) { fprintf(stderr, "ОШИБКА: open %s: %s\en", map_file, strerror(errno)); exit(EXIT_FAILURE); } if (write(fd, mapping, map_len) != map_len) { fprintf(stderr, "ОШИБКА: write %s: %s\en", map_file, strerror(errno)); exit(EXIT_FAILURE); } close(fd); } /* Linux 3.19 made a change in the handling of setgroups(2) and the \[aq]gid_map\[aq] file to address a security issue. The issue allowed *unprivileged* users to employ user namespaces in order to drop groups. The upshot of the 3.19 changes is that in order to update the \[aq]gid_maps\[aq] file, use of the setgroups() system call in this user namespace must first be disabled by writing "deny" to one of the /proc/PID/setgroups files for this namespace. That is the purpose of the following function. */ static void proc_setgroups_write(pid_t child_pid, char *str) { char setgroups_path[PATH_MAX]; int fd; snprintf(setgroups_path, PATH_MAX, "/proc/%jd/setgroups", (intmax_t) child_pid); fd = open(setgroups_path, O_RDWR); if (fd == \-1) { /* We may be on a system that doesn\[aq]t support /proc/PID/setgroups. In that case, the file won\[aq]t exist, and the system won\[aq]t impose the restrictions that Linux 3.19 added. That\[aq]s fine: we don\[aq]t need to do anything in order to permit \[aq]gid_map\[aq] to be updated. Однако, если ошибка open() отличается от ENOENT, сообщим об этом пользователю. */ if (errno != ENOENT) fprintf(stderr, "ERROR: open %s: %s\en", setgroups_path, strerror(errno)); return; } if (write(fd, str, strlen(str)) == \-1) fprintf(stderr, "ОШИБКА: write %s: %s\en", setgroups_path, strerror(errno)); close(fd); } static int /* Начальная функция клонированного потомка */ childFunc(void *arg) { struct child_args *args = arg; char ch; /* Ждём пока родитель обновит отображения UID и GID. Смотрите комментарий в main(). Мы ждём конца файла в канале, который будет закрыт родительским процессом после обновления отображений. */ close(args\->pipe_fd[1]); /* закрываем наш дескриптор для записи конца канала для того, чтобы мы увидели EOF, когда родитель закроет свой дескриптор */ if (read(args\->pipe_fd[0], &ch, 1) != 0) { fprintf(stderr, "Ошибка в потомке: при чтении из канала получен != 0\en"); exit(EXIT_FAILURE); } close(args\->pipe_fd[0]); /* Запускаем командную оболочку. */ printf("About to exec %s\en", args\->argv[0]); execvp(args\->argv[0], args\->argv); err(EXIT_FAILURE, "execvp"); } #define STACK_SIZE (1024 * 1024) static char child_stack[STACK_SIZE]; /* Space for child\[aq]s stack */ int main(int argc, char *argv[]) { int flags, opt, map_zero; pid_t child_pid; struct child_args args; char *uid_map, *gid_map; const int MAP_BUF_SIZE = 100; char map_buf[MAP_BUF_SIZE]; char map_path[PATH_MAX]; /* Parse command\-line options. The initial \[aq]+\[aq] character in the final getopt() argument prevents GNU\-style permutation of command\-line options. That\[aq]s useful, since sometimes the \[aq]command\[aq] to be executed by this program itself has command\-line options. We don\[aq]t want getopt() to treat those as options to this program. */ flags = 0; verbose = 0; gid_map = NULL; uid_map = NULL; map_zero = 0; while ((opt = getopt(argc, argv, "+imnpuUM:G:zv")) != \-1) { switch (opt) { case \[aq]i\[aq]: flags |= CLONE_NEWIPC; break; case \[aq]m\[aq]: flags |= CLONE_NEWNS; break; case \[aq]n\[aq]: flags |= CLONE_NEWNET; break; case \[aq]p\[aq]: flags |= CLONE_NEWPID; break; case \[aq]u\[aq]: flags |= CLONE_NEWUTS; break; case \[aq]v\[aq]: verbose = 1; break; case \[aq]z\[aq]: map_zero = 1; break; case \[aq]M\[aq]: uid_map = optarg; break; case \[aq]G\[aq]: gid_map = optarg; break; case \[aq]U\[aq]: flags |= CLONE_NEWUSER; break; default: usage(argv[0]); } } /* \-M или \-G без \-U не имеют смысла */ if (((uid_map != NULL || gid_map != NULL || map_zero) && !(flags & CLONE_NEWUSER)) || (map_zero && (uid_map != NULL || gid_map != NULL))) usage(argv[0]); args.argv = &argv[optind]; /* We use a pipe to synchronize the parent and child, in order to ensure that the parent sets the UID and GID maps before the child calls execve(). This ensures that the child maintains its capabilities during the execve() in the common case where we want to map the child\[aq]s effective user ID to 0 in the new user namespace. Without this synchronization, the child would lose its capabilities if it performed an execve() with nonzero user IDs (see the capabilities(7) man page for details of the transformation of a process\[aq]s capabilities during execve()). */ if (pipe(args.pipe_fd) == \-1) err(EXIT_FAILURE, "pipe"); /* создаём потомка в новом пространстве имён */ child_pid = clone(childFunc, child_stack + STACK_SIZE, flags | SIGCHLD, &args); if (child_pid == \-1) err(EXIT_FAILURE, "clone"); /* предок попадает сюда. */ if (verbose) printf("%s: PID потомка, созданного clone(): %jd\en", argv[0], (intmax_t) child_pid); /* обновляем отображения UID и GID в потомке */ if (uid_map != NULL || map_zero) { snprintf(map_path, PATH_MAX, "/proc/%jd/uid_map", (intmax_t) child_pid); if (map_zero) { snprintf(map_buf, MAP_BUF_SIZE, "0 %jd 1", (intmax_t) getuid()); uid_map = map_buf; } update_map(uid_map, map_path); } if (gid_map != NULL || map_zero) { proc_setgroups_write(child_pid, "deny"); snprintf(map_path, PATH_MAX, "/proc/%jd/gid_map", (intmax_t) child_pid); if (map_zero) { snprintf(map_buf, MAP_BUF_SIZE, "0 %ld 1", (intmax_t) getgid()); gid_map = map_buf; } update_map(gid_map, map_path); } /* закрываем конец канала на стороне записи для сообщения потомку о том, что мы обновили отображения UID и GID */ close(args.pipe_fd[1]); if (waitpid(child_pid, NULL, 0) == \-1) /* ждём потомка */ err(EXIT_FAILURE, "waitpid"); if (verbose) printf("%s: завершение\en", argv[0]); exit(EXIT_SUCCESS); } .EE .SH "СМ. ТАКЖЕ" .\" From the shadow package .\" From the shadow package .\" From the shadow package .\" From the shadow package \fBnewgidmap\fP(1), \fBnewuidmap\fP(1), \fBclone\fP(2), \fBptrace\fP(2), \fBsetns\fP(2), \fBunshare\fP(2), \fBproc\fP(5), \fBsubgid\fP(5), \fBsubuid\fP(5), \fBcapabilities\fP(7), \fBcgroup_namespaces\fP(7), \fBcredentials\fP(7), \fBnamespaces\fP(7), \fBpid_namespaces\fP(7) .PP Файл из дерева исходного кода ядра \fIDocumentation/admin\-guide/namespaces/resource\-control.rst\fP. .PP .SH ПЕРЕВОД Русский перевод этой страницы руководства был сделан Azamat Hackimov , Dmitriy Ovchinnikov , Dmitry Bolkhovskikh , Katrin Kutepova , Yuri Kozlov и Иван Павлов . .PP Этот перевод является бесплатной документацией; прочитайте .UR https://www.gnu.org/licenses/gpl-3.0.html Стандартную общественную лицензию GNU версии 3 .UE или более позднюю, чтобы узнать об условиях авторского права. Мы не несем НИКАКОЙ ОТВЕТСТВЕННОСТИ. .PP Если вы обнаружите ошибки в переводе этой страницы руководства, пожалуйста, отправьте электронное письмо на .MT man-pages-ru-talks@lists.sourceforge.net .ME .