Scroll to navigation

SOCKET(7) Linux Programmer's Manual SOCKET(7)

名前

socket - Linux のソケットインターフェース

書式

#include <sys/socket.h>

sockfd = socket(int socket_family, int socket_type, int protocol);

説明

このマニュアルページは Linux ネットワークのソケット層に対する ユーザーインターフェースを記述するものである。 BSD 互換ソケットは、ユーザープロセスとカーネル内部の ネットワークプロトコルスタック群との間に、 統一的なインターフェースを提供するものである。 プロトコルモジュールは プロトコルファミリー (protocol familiy) (例: AF_INET, AF_IPX, AF_PACKET) と ソケットタイプ (socket types) (例: SOCK_STREAM, SOCK_DGRAM) に分類できる。 これらに関するより詳しい情報は socket(2) を参照のこと。

ソケット層の関数群

これらの関数はユーザープロセスがパケットを送受信したり、その他のソケット操作を 行ったりするために用いられる。詳細はそれぞれのマニュアルページを 見てほしい。

socket(2) はソケットを生成する。 connect(2) はソケットをリモートのソケットアドレスに接続する。 bind(2) はソケットをローカルのソケットアドレスにバインドする。 listen(2) はソケットに新しい接続が来たら受信するように伝え、 accept(2) は外部からやってきた接続に対して新しいソケットを得るために用いられる。 socketpair(2) は互いに接続された二つの名前無しソケット (anonymous socket) を返す (AF_UNIX のような、いくつかのローカルなファミリーでしか実装されていない)。

send(2), sendto(2), sendmsg(2) はソケットを通してデータを送信し、 recv(2) recvfrom(2), recvmsg(2) はソケットからデータを受信する。 poll(2)select(2) はデータの到着を待ったり、データ送信の準備ができるまで待ったりする。 さらに、 write(2), writev(2), sendfile(2), read(2), readv(2) のような標準的な I/O 操作もデータの読み書きに用いることができる。

getsockbyname(2) はローカルのソケットアドレスを返し、 getpeername(2) はリモートのソケットアドレスを返す。 getsockopt(2)setsockopt(2) はソケット層のオプションやプロトコルオプションの取得・設定に用いられる。 他のいくつかのオプションの取得・設定には ioctl(2) を使うことができる。

close(2) はソケットをクローズする。 shutdown(2) は全二重なソケット接続を部分的にクローズする。

シーク動作や、 0 以外の位置に対する pread(2)pwrite(2) はソケットではサポートされていない。

非ブロッキングな I/O をソケットで行うことは可能で、 fcntl(2) を使ってソケットのファイルディスクリプターに O_NONBLOCK フラグをセットすれば良い。 こうするとブロックされる操作は、 (通常) EAGAIN エラーで戻ることになる (後で処理が再試行されることが期待されている)。 connect(2) では EINPROGRESS エラーが返される。 この場合、ユーザーはさまざまなイベントを poll(2)select(2) を使って待つことができる。

I/O イベント
イベント poll フラグ 内容
Read POLLIN 新しいデータが到着した。
Read POLLIN (接続志向のソケットで) 接続の設定が終了した。
Read POLLHUP 接続先で切断要求が生成された。
Read POLLHUP 接続が壊れた (接続志向のプロトコルのみ)。 この場合、ソケットに書き込みが行われると SIGPIPE も送信される。
Write POLLOUT ソケットには新しいデータを書き込むのに十分なバッファーがある。
Read/Write POLLIN| POLLOUT 外部向けの connect(2) が終了した。
Read/Write POLLERR 非同期的 (asynchronous) なエラーが起こった。
Read/Write POLLHUP 接続先が片方向を切断した。
Exception POLLPRI 緊急データ (urgent data) が到着した。この場合は SIGURG が送信される。

poll(2)select(2) を使う代わりに、カーネルからアプリケーションに イベントを通知させるのに SIGIO シグナルを使う方法もある。 この方法を使うには、 fcntl(2) を用いてソケットのファイルディスクリプターに O_ASYNC フラグをセットし、 SIGIO に対する有効なシグナルハンドラーを sigaction(2) によって設定しておく必要がある。 後述の シグナル に関する議論も参考にすること。

ソケットアドレス構造体

各ソケットドメインにはそれぞれ独自のソケットアドレス形式があり、ドメイン固有のアドレス構造体を持っている。 これらの構造体の先頭には、アドレス構造体の種類を示す整数の "family" フィールド (型は sa_family_t) がある。 このフィールドにより、 すべてのソケットドメインで汎用的に使用されるシステムコール (例えば、 connect(2), bind(2), accept(2), getsockname(2), getpeername(2) など) が、特定のソケットアドレスのドメインを判定することができる。

任意の種類のソケットアドレスをソケット API のインターフェースに渡せるように、 struct sockaddr 型が定義されている。 この型の目的は、 純粋に、 ドメイン固有のソケットアドレスを 「汎用的な」型にキャストできるようにする点にある。 これにより、 ソケット API 呼び出しにおいて、 コンパイラが型の不一致の警告を出すのを避けることができる。

これに加えて、ソケット API ではデータ型 struct sockaddr_storage が提供されている。 サポートしているすべてのドメイン固有のソケットアドレス構造体を収容するのに、この型を使うことができる。 この型は十分な大きさがあり、(メモリー境界への) アラインも適切に行われている (特に、 IPv6 ソケットアドレスを収容するのにも十分な大きさである)。 この構造体には次のフィールドがあり、 このフィールドを使って、 この構造体に実際に格納されているソケットアドレスの型を特定することができる。



sa_family_t ss_family;

sockaddr_storage 構造体は、 ソケットアドレスを汎用的な方法で扱う必要があるプログラム (例えば、 IPv4 と IPv6 の両方のソケットアドレスを扱う必要があるプログラム) で有用である。

ソケットオプション

これらのソケットオプションは、 setsockopt(2) を用いれば設定でき、 getsockopt(2) を用いれば取得できる。 但し、どのソケットの場合も ソケットレベルには SOL_SOCKET を指定すること。 注釈がない限り、 optvalint へのポインターである。

このソケットが listen(2) によって接続待ち受け状態に設定されているかどうかを示す値を返す。 値 0 は listen 状態のソケットでないことを、 値 1 は listen 状態のソケットであることを示す。このソケットオプションは読み込み専用である。
このソケットを、引き数で渡したインターフェース名で指定される (“eth0” のような) 特定のデバイスにバインドする。 名前が空文字列だったり、オプションの長さ (optlen) が 0 の場合には、 ソケットのバインドが削除される。 渡すオプションは、インターフェース名が 入ったヌル文字で終端された可変長の文字列である。 文字列の最大のサイズは IFNAMSIX である。 ソケットがインターフェースにバインドされると、 その特定のインターフェースから受信されたパケットだけを処理する。 このオプションはいくつかのソケットタイプ、 特に AF_INET に対してのみ動作する点に注意すること。 パケットソケットではサポートされていない (通常の bind(2) を使うこと)。

Linux 3.8 より前のバージョンでは、このソケットオプションは getsockname(2) で設定することはできたが、取得することができなかった。 Linux 3.8 以降では、読み出すことができる。 optlen 引き数には、 デバイス名を格納するのに十分なバッファーサイズを渡すべきであり、 IFNAMSIZ バイトにすることを推奨する。 実際のデバイス名の長さは optlen 引き数に格納されて返される。

ブロードキャストフラグを設定・取得する。有効になっていると、データグラ ムソケットはブロードキャストアドレスにパケットを送信できるようになる。 ストリーム指向のソケットには何の効果もない。
BSD のバグに対して互換性を取るための機能を有効にする。 この機能は Linux 2.0 と 2.2 の UDP プロトコルモジュールで使用されている。 有効になっていると、 UDP ソケットで受信された ICMP エラーは ユーザープログラムに渡されない。 これ以降のバージョンのカーネルでは、このオプションのサポートは 段階的に廃止されてきた。 Linux 2.4 ではこのオプションは黙って無視され、 Linux 2.6 ではプログラムがこのオプションを使用すると (printk() を使って) カーネルの警告メッセージが出力される。 Linux 2.0 では、このオプションを指定すると、 raw ソケットにおいても BSD のバグ (ランダムヘッダー変更、 ブロードキャストフラグのスキップ) に対する互換機能が有効になっていた。 しかし、こちらは Linux 2.2 で削除された。
ソケットのデバッグ機能を有効にする。 CAP_NET_ADMIN 権限を持つプロセスか、実効ユーザー ID が 0 のプロセスでしか 利用できない。
ソケットドメインを整数で取得する。 AF_INET6 のような値が返される。 詳細は socket(2) を参照。このソケットオプションは読み込み専用である。
保留になっていたソケットエラーを取得してクリアする。 このソケットオプションは読み込み専用である。整数値をとる。
ゲートウェイを経由せず、直接接続されているホストにのみ送信する。 send(2) 操作で MSG_DONTROUTE フラグをセットした場合も同じ効果が得られる。 ブール整数のフラグを取る。
接続志向のソケットに対する keep-alive メッセージの送信を有効にする。 ブール値の整数フラグをとる。
SO_LINGER オプションを取得・設定する。引き数には linger 構造体を取る。


struct linger {

int l_onoff; /* linger active */
int l_linger; /* how many seconds to linger for */ };

有効になっていると、 close(2)shutdown(2) は、そのソケットにキューイングされたメッセージがすべて送信完了するか、 linger (居残り) タイムアウトになるまで返らない。無効になっていると、 これらのコールはただちに戻り、クローズ動作はバックグラウンドで行われる。 ソケットのクローズを exit(2) の一部として行った場合には、残っているソケットの クローズ動作は必ずバックグラウンドに送られる。
このソケットから送信される各パケットにマークをセットする (netfilter の MARK ターゲットと似ているが、ソケット単位である点が異なる)。 マークの変更は、 netfilter なしでのマークに基づいてのルーティングや、 パケットフィルタリングに使うことができる。 このオプションを変更するには CAP_NET_ADMIN ケーパビリティが必要である。
このオプションを有効にすると、帯域外データ (out-of-band data) は 受信データストリーム中に置かれる。有効にしなければ、 帯域外データは受信時に MSG_OOB フラグがセットされている場合に限って渡される。
SCM_CREDENTIALS 制御メッセージの受信を有効/無効にする。詳細は unix(7) を参照のこと。
MSG_PEEK フラグと一緒に使用された場合 recv(2) システムコールの "peek offset" にこのオプションの値が設定される。現在のところ、このオプションは unix(7) ソケットでのみサポートされている。

このオプションが負の値に設定された場合、従来の動作となる。 つまり MSG_PEEK フラグが指定された recv(2) は、キューの先頭のデータに対して peek 処理を行う (データを読み出すが、キューからデータの削除を行わない)。 新規のソケットではこのオプションの値は必ず -1 に設定される。

このオプションに 0 以上の値が設定されると、 そのソケットのキュー上のオプション値で指定されたバイトオフセットにあるデータが次の peek 処理で返される。 同時に、 "peek offset" がキューから peek 処理されたバイト数だけ加算される。したがって、次の peek 処理ではキューのその次にあるデータが返される。

recv(2) (や同様のシステムコール) の MSG_PEEK フラグなしの呼び出しでキューの先頭のデータが削除された場合、 "peek offset" は削除されたバイト数だけ減算される。 言い換えると、 MSG_PEEK フラグなしでデータを受信すると、 "peek offset" が指すキュー内の相対的な位置が狂わないように調整され、この後の peek では、 データ削除が行われなかった場合に返されたのと同じ値が返されるということである。

データグラムソケットでは、 "peek offset" がパケットの途中を指している場合には、 返されるデータには MSG_TRUNC フラグが付与される。

以下の例は SO_PEEK_OFF の利用例を示している。ストリームソケットのキューに以下の入力データが入っているものとする。


aabbccddeeff

以下の順序で recv(2) の呼び出しを行うと、コメントに書かれた結果となる。


int ov = 4;                  // Set peek offset to 4
setsockopt(fd, SOL_SOCKET, SO_PEEK_OFF, &ov, sizeof(ov));
recv(fd, buf, 2, MSG_PEEK);  // Peeks "cc"; offset set to 6
recv(fd, buf, 2, MSG_PEEK);  // Peeks "dd"; offset set to 8
recv(fd, buf, 2, 0);         // Reads "aa"; offset set to 6
recv(fd, buf, 2, MSG_PEEK);  // Peeks "ee"; offset set to 8

このソケットに接続してきた外部プロセスの信任状 (credential) を返す。このソケットオプションが利用できるのは、接続された AF_UNIX ストリームソケット間、および socketpair(2) を使って作成された AF_UNIX のストリームソケットとデータグラムソケットのペアだけである。 unix(7) を参照のこと。 connect(2)socketpair(2) が呼ばれた時に有効であった信任状が返される。 引き数は ucred 構造体である。この構造体の定義を <sys/socket.h> を得るには、 機能検査マクロ _GNU_SOURCE を定義すること。 このソケットオプションは読み込み専用である。
プロトコルで定義された優先度を、このソケットから 送信される全てのパケットにセットする。 Linux はネットワークキュー内部の 整列にこの値を用いる。高い優先度を持っているパケットは先に処理される。 ただしそのデバイスのキュー処理のやり方に依存する。 ip(7) では、外向けパケットの IP type-of-service (TOS) フィールドにもこの値が設定される。 0 から 6 以外の優先度をセットするには CAP_NET_ADMIN ケーパビリティが必要である。
ソケットのプロトコルを整数で取得する。 IPPROTO_SCTP のような値が返される。 詳細は socket(2) を参照。このソケットオプションは読み込み専用である。
ソケットの受信バッファーの最大サイズを設定・取得する (バイト単位)。 setsockopt(2) を使って値が設定されたときに (管理オーバヘッド用の領域を確保するために) カーネルはこの値を 2倍し、 getsockopt(2) はこの 2倍された値を返す。 デフォルトの値は /proc/sys/net/core/rmem_default ファイルで設定され、許容される最大の値は /proc/sys/net/core/rmem_max ファイルで設定される。 このオプションの最小値は (2倍した値で) 256 である。
このソケットオプションを使うと、特権プロセス (CAP_NET_ADMIN を持つプロセス) は SO_RCVBUF と同じことを実行できる。 ただし、上限 rmem_max を上書きすることができる。
バッファー中に溜めることのできるデータの最小値を指定する。 このサイズを越えると、ソケット層はそのデータをプロトコルに渡し (SO_SNDLOWAT)、 受信時にはユーザーに渡す (SO_RCVLOWAT)。 これら二つの値は 1 に初期化される。 SO_SNDLOWAT は Linux では変更できない (setsockopt(2)ENOPROTOOPT エラーで失敗する)。 SO_RCVLOWAT は Linux 2.4 以降でのみ変更可能である。 現状、Linux ではシステムコール select(2)poll(2)SO_RCVLOWAT の設定を考慮に入れずに動作し、 データが1バイト利用可能になっただけでも、 ソケットは読み出し可能とのマークをつける。 一方、それに続けて行うソケットからの read は SO_RCVLOWAT バイトのデータが利用可能になるまで停止してしまう。
送信・受信のタイムアウトを指定する。これを越えるとエラーを報告する。 引き数は struct timeval である。 入出力関数がタイムアウト時間の間ブロックされ、かつデータの送信または 受信が行われていた場合は、転送されたデータ量が関数の返り値となる。 何もデータが転送されずにタイムアウトに達した場合は、 -1 を返し、 errnoEAGAINEWOULDBLOCKEINPROGRESS (connect(2) の場合) が設定され、 あたかもソケットに非ブロッキングが指定されたように見える。 タイムアウト値に (デフォルト値である) 0 に設定すると、 操作は決してタイムアウトしなくなる。 タイムアウトが影響を及ぼすのは、 ソケット I/O を実行するシステムコールだけ (例えば read(2), recvmsg(2), send(2), sendmsg(2)) である。 select(2), poll(2), epoll_wait(2) などにはタイムアウトは影響を及ぼさない。
bind(2) コールに与えられたアドレスが正しいかを判断するルールで、 ローカルアドレスの再利用を可能にする。 つまり AF_INET ソケットなら、そのアドレスにバインドされたアクティブな listen 状態のソケットが存在しない限り、バインドが行える。 listen 状態のソケットがアドレス INADDR_ANY で特定のポートにバインドされている場合には、 このポートに対しては、どんなローカルアドレスでもバインドできない。 引き数はブール整数のフラグである。
最後の受信パケットとこの受信パケットの間にそのソケットで捨てられた (ドロップされた) パケット数を示す、unsigned 32 ビット値の補助メッセージ (cmsg) を受信した skb に付与することを指示する。
ソケットの送信バッファーの最大サイズを設定・取得する (バイト単位)。 setsockopt(2) を使って値が設定されたときに (管理オーバヘッド用の領域を確保するために) カーネルはこの値を 2倍し、 getsockopt(2) はこの 2倍された値を返す。 デフォルトの値は /proc/sys/net/core/wmem_default ファイルで設定され、許容される最大の値は /proc/sys/net/core/wmem_max ファイルで設定される。 このオプションの最小値は (2倍した値で) 2048 である。
このソケットオプションを使うと、特権プロセス (CAP_NET_ADMIN を持つプロセス) は SO_SNDBUF と同じことを実行できる。 ただし、上限 wmem_max を上書きすることができる。
SO_TIMESTAMP 制御メッセージの受信を有効/無効にする。 タイムスタンプ制御メッセージはレベル SOL_SOCKET で送信され、 cmsg_data フィールドはこのシステムコールでユーザーに渡した 最後のパケットの受信時刻を示す struct timeval である。 制御メッセージの詳細については cmsg(3) を参照。
ソケットのタイプを整数で取得する (例: SOCK_STREAM)。 このソケットオプションは読み出し専用である。
データがなかった際にブロッキング受信での busy polling のおおよその時間をマイクロ秒単位で設定する。 この値を増やすには CAP_NET_ADMIN ケーパビリティが必要である。 このオプションのデフォルト値は /proc/sys/net/core/busy_read で制御できる。

/proc/sys/net/core/busy_poll の値により、 SO_BUSY_POLL がセットされたソケットに対して select(2)poll(2) を行い、報告すべきイベントがない場合に、 select(2)poll(2) が busy polling をどのくらいの時間行うかが決まる。

どちらの場合も、busy polling は、そのソケットが最後にデータを受信したネットワークデバイスがこのオプションに対応している場合のみ行われる。

busy polling により遅延が改善されるはアプリケーションもあるが、 busy polling は CPU 使用率と電力使用量をともに増加させることになるので、使用する際は注意して行うこと。

シグナル

(ローカルもしくはリモート側で) 切断された 接続指向 (connection-oriented) のソケットに対して 書き込みを行うと、その書き込みを行ったプロセスに SIGPIPE が送られ、 EPIPE が返される。 write 呼び出しに MSG_NOSIGNAL フラグを指定していた場合はシグナルは送られない。

FIOSETOWN fcntl(2)SIOCSPGRP ioctl(2) をプロセスまたはプロセスグループに指定しておくと、 I/O イベントが起きたときに SIGIO が送られる。 poll(2)select(2) をシグナルハンドラー内で用いれば、どのソケットでイベントが起こったかを 知ることができる。 (Linux 2.2 における) 別の方法としては、 F_SETSIG fcntl(2) を用いてリアルタイムシグナルを設定するやり方もある。 リアルタイムシグナルのハンドラーは、 siginfo_tsi_fd フィールドにファイルディスクリプターが入った状態で呼び出される。 詳細は fcntl(2) を参照のこと。

状況によっては (例えば複数のプロセスが一つのソケットにアクセスしているなど)、 SIGIO の原因となった状態は、プロセスがそのシグナルへの対応を行ったときには 消えてしまっているかもしれない。 この場合は、プロセスは再び待つようにすべきである。 Linux は同じシグナルを後で再送するからである。

/proc インターフェース

core のソケットのネットワーキングパラメーターには、 /proc/sys/net/core/ ディレクトリ内のファイルを通してアクセスできる。

ソケットの受信バッファーサイズのデフォルト値 (バイト単位)。
SO_RCVBUF ソケットオプションを用いてユーザーが設定できる ソケットの受信バッファーサイズの最大値 (バイト単位)。
ソケットの送信バッファーサイズのデフォルト値 (バイト単位)。
SO_SNDBUF ソケットオプションを用いてユーザーが設定できる ソケットの送信バッファーサイズの最大値 (バイト単位)。
トークンバケットフィルターを設定する。 これは外部のネットワークイベントによって引き起こされた 負荷限界の警告メッセージに用いられる。
グローバルな入力キューにおける最大のパケット数。
ソケットあたりの、補助データ (ancillary data) とユーザー制御データ (iovecs のようなもの) との和の最大長。

ioctl

以下に示す操作には ioctl(2) を用いてアクセスできる。


error = ioctl(ip_socket, ioctl_type, &value_result);

最後にユーザーに渡されたパケットの受信タイムスタンプを struct timeval に入れて返す。 これは round trip 時間を正確に測りたいときに便利である。 struct timeval の説明は setitimer(2) を見てほしい。 この ioctl は、ソケットオプション SO_TIMESTAMP がソケットにセットされていない場合にのみ使用すべきである。 さもなければ、この ioctl は SO_TIMESTAMP がセットされていなかった間に受信した最後のパケットの時刻を返すか、 そのようなパケットを受信していない場合には失敗する (つまり、 ioctl(2) は -1 を返し、 errnoENOENT をセットする)。
非同期 I/O 操作の終了時や緊急データの受信時に SIGIOSIGURG シグナル群を送るプロセスやプロセスグループを設定する。 引き数は pid_t へのポインターである。 引き数が正だと、そのプロセスにシグナルが送られる。負だと、 引き数の絶対値を ID に持つプロセスグループにシグナルが送られる。 シグナル受信先には、自分自身のプロセス / 自分の所属するプロセスグループ しか指定できない。但し、 CAP_KILL ケーパビリティを持っている場合、及び実効ユーザー ID が 0 のプロセスの場合は この限りではない。
O_ASYNC フラグを変更し、ソケットの非同期 (asynchronous) I/O モードを 有効/無効にする。非同期 I/O モードでは、 新しい I/O イベントが起きたときに、 SIGIO シグナルや F_SETSIG で設定されたシグナルセットが発行される。
引き数はブール整数のフラグである。 (この操作は fcntl(2) を使って O_ASYNC フラグをセットするのと同じ意味である。)
SIGIOSIGURG を受信したカレントプロセスかプロセスグループを取得する。 ない場合は 0 が返る。

有効な fcntl(2) 操作:

SIOCGPGRP ioctl(2) と同じ。
SIOCSPGRP ioctl(2) と同じ。

バージョン

SO_BINDTODEVICE は Linux 2.0.30 で導入された。 SO_PASSCRED は Linux 2.2 で登場した。 /proc インターフェースは Linux 2.2 で導入された。 SO_RCVTIMEOSO_SNDTIMEO は Linux 2.3.41 以降でサポートされている。 それ以前は、タイムアウトはプロトコル固有の固定の設定値で、 読み書きをすることはできなかった。

注意

Linux は、送受信バッファーの半分を内部のカーネル構造体で用いると仮定している。 したがって、対応する /proc ファイルはネットワーク回線上での大きさの 2 倍になる。

Linux では、 SO_REUSEADDR オプションでポートの再利用が許可されるのは、 そのポートに対して bind(2) を前に実行したプログラムとそのポートを再利用 しようとするプログラムの両方で SO_REUSEADDR がセットされた場合のみである。 この動作は (FreeBSD などの) いくつかの実装とは異なる。これらでは、 後でポートを再利用しようとするプログラムで SO_REUSEADDR オプションをセットするだけでよい。 たいていはこの違いは見えない。なぜなら、例えばサーバプログラムは 常にこのオプションをセットするように設計されるからである。

バグ

CONFIG_FILTER ソケットオプションである SO_ATTACH_FILTERSO_DETACH_FILTER について記載されていない。これらは libpcap ライブラリを通して 用いる方が良い。

関連項目

connect(2), getsockopt(2), setsockopt(2), socket(2), capabilities(7), ddp(7), ip(7), packet(7), tcp(7), udp(7), unix(7)

この文書について

この man ページは Linux man-pages プロジェクトのリリース 3.79 の一部 である。プロジェクトの説明とバグ報告に関する情報は http://www.kernel.org/doc/man-pages/ に書かれている。

2014-07-08 Linux