r141: Commit this before I accidentally remove it again..
[nbd.git] / nbd-server.c
1 /*
2  * Network Block Device - server
3  *
4  * Copyright 1996-1998 Pavel Machek, distribute under GPL
5  *  <pavel@atrey.karlin.mff.cuni.cz>
6  * Copyright 2001-2004 Wouter Verhelst <wouter@debian.org>
7  * Copyright 2002 Anton Altaparmakov <aia21@cam.ac.uk>
8  *
9  * Version 1.0 - hopefully 64-bit-clean
10  * Version 1.1 - merging enhancements from Josh Parsons, <josh@coombs.anu.edu.au>
11  * Version 1.2 - autodetect size of block devices, thanx to Peter T. Breuer" <ptb@it.uc3m.es>
12  * Version 1.5 - can compile on Unix systems that don't have 64 bit integer
13  *      type, or don't have 64 bit file offsets by defining FS_32BIT
14  *      in compile options for nbd-server *only*. This can be done
15  *      with make FSCHOICE=-DFS_32BIT nbd-server. (I don't have the
16  *      original autoconf input file, or I would make it a configure
17  *      option.) Ken Yap <ken@nlc.net.au>.
18  * Version 1.6 - fix autodetection of block device size and really make 64 bit
19  *      clean on 32 bit machines. Anton Altaparmakov <aia21@cam.ac.uk>
20  * Version 2.0 - Version synchronised with client
21  * Version 2.1 - Reap zombie client processes when they exit. Removed
22  *      (uncommented) the _IO magic, it's no longer necessary. Wouter
23  *      Verhelst <wouter@debian.org>
24  * Version 2.2 - Auto switch to read-only mode (usefull for floppies).
25  * Version 2.3 - Fixed code so that Large File Support works. This
26  *      removes the FS_32BIT compile-time directive; define
27  *      _FILE_OFFSET_BITS=64 and _LARGEFILE_SOURCE if you used to be
28  *      using FS_32BIT. This will allow you to use files >2GB instead of
29  *      having to use the -m option. Wouter Verhelst <wouter@debian.org>
30  * Version 2.4 - Added code to keep track of children, so that we can
31  *      properly kill them from initscripts. Add a call to daemon(),
32  *      so that processes don't think they have to wait for us, which is
33  *      interesting for initscripts as well. Wouter Verhelst
34  *      <wouter@debian.org>
35  * Version 2.5 - Bugfix release: forgot to reset child_arraysize to
36  *      zero after fork()ing, resulting in nbd-server going berserk
37  *      when it receives a signal with at least one child open. Wouter
38  *      Verhelst <wouter@debian.org>
39  * 10/10/2003 - Added socket option SO_KEEPALIVE (sf.net bug 819235);
40  *      rectified type of mainloop::size_host (sf.net bugs 814435 and
41  *      817385); close the PID file after writing to it, so that the
42  *      daemon can actually be found. Wouter Verhelst
43  *      <wouter@debian.org>
44  * 10/10/2003 - Size of the data "size_host" was wrong and so was not
45  *      correctly put in network endianness. Many types were corrected
46  *      (size_t and off_t instead of int).  <vspaceg@sourceforge.net>
47  * Version 2.6 - Some code cleanup.
48  * Version 2.7 - Better build system.
49  * 11/02/2004 - Doxygenified the source, modularized it a bit. Needs a 
50  *      lot more work, but this is a start. Wouter Verhelst
51  *      <wouter@debian.org>
52  */
53
54 /* Includes LFS defines, which defines behaviours of some of the following
55  * headers, so must come before those */
56 #include "lfs.h"
57
58 #include <sys/types.h>
59 #include <sys/socket.h>
60 #include <sys/stat.h>
61 #include <sys/wait.h>           /* wait */
62 #ifdef HAVE_SYS_IOCTL_H
63 #include <sys/ioctl.h>
64 #endif
65 #include <sys/param.h>
66 #ifdef HAVE_SYS_MOUNT_H
67 #include <sys/mount.h>          /* For BLKGETSIZE */
68 #endif
69 #include <signal.h>             /* sigaction */
70 #include <netinet/tcp.h>
71 #include <netinet/in.h>         /* sockaddr_in, htons, in_addr */
72 #include <netdb.h>              /* hostent, gethostby*, getservby* */
73 #include <syslog.h>
74 #include <unistd.h>
75 #include <stdio.h>
76 #include <stdlib.h>
77 #include <string.h>
78 #include <fcntl.h>
79 #include <arpa/inet.h>
80 #include <strings.h>
81 #include <dirent.h>
82 #include <unistd.h>
83 #include <getopt.h>
84
85 #include <glib.h>
86
87 /* used in cliserv.h, so must come first */
88 #define MY_NAME "nbd_server"
89 #include "cliserv.h"
90
91 /** Default position of the config file */
92 #ifndef SYSCONFDIR
93 #define SYSCONFDIR "/etc"
94 #endif
95 #define CFILE SYSCONFDIR "/nbd-server/config"
96
97 /** Where our config file actually is */
98 gchar* config_file_pos;
99
100 /** how much space for child PIDs we have by default. Dynamically
101    allocated, and will be realloc()ed if out of space, so this should
102    probably be fair for most situations. */
103 #define DEFAULT_CHILD_ARRAY 256
104
105 /** Logging macros, now nothing goes to syslog unless you say ISSERVER */
106 #ifdef ISSERVER
107 #define msg2(a,b) syslog(a,b)
108 #define msg3(a,b,c) syslog(a,b,c)
109 #define msg4(a,b,c,d) syslog(a,b,c,d)
110 #else
111 #define msg2(a,b) g_message(b)
112 #define msg3(a,b,c) g_message(b,c)
113 #define msg4(a,b,c,d) g_message(b,c,d)
114 #endif
115
116 /* Debugging macros */
117 //#define DODBG
118 #ifdef DODBG
119 #define DEBUG( a ) printf( a )
120 #define DEBUG2( a,b ) printf( a,b )
121 #define DEBUG3( a,b,c ) printf( a,b,c )
122 #else
123 #define DEBUG( a )
124 #define DEBUG2( a,b ) 
125 #define DEBUG3( a,b,c ) 
126 #endif
127 #ifndef PACKAGE_VERSION
128 #define PACKAGE_VERSION ""
129 #endif
130 /**
131  * The highest value a variable of type off_t can reach.
132  **/
133 /* This is starting to get ugly. If someone knows a better way to find
134  * the maximum value of a signed type *without* relying on overflow
135  * (doing so breaks on 64bit architectures), that would be nice.
136  *
137  * Actually, do we need this at all? Can't we just say '0 is autodetect', and
138  * live with it? Or better yet, use an extra flag, or so?
139  * Answer: yes, we need it, as the hunksize is defined to this when the
140  * multiple file thingy isn't used.
141  */
142 #define OFFT_MAX (((((off_t)1)<<((sizeof(off_t)-1)*8))-1)<<7)+127
143 #define LINELEN 256       /**< Size of static buffer used to read the
144                             authorization file (yuck) */
145 #define BUFSIZE (1024*1024) /**< Size of buffer that can hold requests */
146 #define GIGA (1*1024*1024*1024) /**< 1 Gigabyte. Used as hunksize when doing
147                                   the multiple file thingy. @todo: make this a
148                                   configuration option. */
149 #define DIFFPAGESIZE 4096 /**< diff file uses those chunks */
150 #define F_READONLY 1      /**< flag to tell us a file is readonly */
151 #define F_MULTIFILE 2     /**< flag to tell us a file is exported using -m */
152 #define F_COPYONWRITE 4   /**< flag to tell us a file is exported using
153                             copyonwrite */
154 #define F_AUTOREADONLY 8  /**< flag to tell us a file is set to autoreadonly */
155 GHashTable *children;
156 char pidfname[256]; /**< name of our PID file */
157 char default_authname[] = "/etc/nbd_server.allow"; /**< default name of allow file */
158
159 /**
160  * Variables associated with a server.
161  **/
162 typedef struct {
163         gchar* exportname;    /**< (unprocessed) filename of the file we're exporting */
164         off_t hunksize;      /**< size of a hunk of an exported file */
165         off_t expected_size; /**< size of the exported file as it was told to
166                                us through configuration */
167         unsigned int port;   /**< port we're exporting this file at */
168         char* authname;      /**< filename of the authorization file */
169         int flags;           /**< flags associated with this exported file */
170         unsigned int timeout;/**< how long a connection may be idle
171                                (0=forever) */
172         int socket;          /**< The socket of this server. */
173 } SERVER;
174
175 /**
176  * Variables associated with a client socket.
177  **/
178 typedef struct {
179         off_t exportsize;    /**< size of the file we're exporting */
180         char *clientname;    /**< peer */
181         char *exportname;    /**< (processed) filename of the file we're exporting */
182         GArray *export;    /**< array of filedescriptors of exported files;
183                                only the first is actually used unless we're
184                                doing the multiple file option */
185         int net;             /**< The actual client socket */
186         SERVER *server;      /**< The server this client is getting data from */
187         char* difffilename;  /**< filename of the copy-on-write file, if any */
188         int difffile;        /**< filedescriptor of copyonwrite file. @todo
189                                shouldn't this be an array too? (cfr export) Or
190                                make -m and -c mutually exclusive */
191         u32 difffilelen;     /**< number of pages in difffile */
192         u32 *difmap;         /**< see comment on the global difmap for this one */
193 } CLIENT;
194
195 /**
196  * Type of configuration file values
197  **/
198 typedef enum {
199         PARAM_INT,              /**< This parameter is an integer */
200         PARAM_STRING,           /**< This parameter is a string */
201         PARAM_BOOL,             /**< This parameter is a boolean */
202 } PARAM_TYPE;
203 /**
204  * Configuration file values
205  **/
206 typedef struct {
207         gchar *paramname;       /**< Name of the parameter, as it appears in
208                                   the config file */
209         gboolean required;      /**< Whether this is a required (as opposed to
210                                   optional) parameter */
211         PARAM_TYPE ptype;       /**< Type of the parameter. */
212         gpointer target;        /**< Pointer to where the data of this
213                                   parameter should be written. If ptype is
214                                   PARAM_BOOL, the data is or'ed rather than
215                                   overwritten. */
216         gint flagval;           /**< Flag mask for this parameter in case ptype
217                                   is PARAM_BOOL. */
218 } PARAM;
219
220 /**
221  * Check whether a client is allowed to connect. Works with an authorization
222  * file which contains one line per machine, no wildcards.
223  *
224  * @param opts The client who's trying to connect.
225  * @return 0 - authorization refused, 1 - OK
226  **/
227 int authorized_client(CLIENT *opts) {
228         FILE *f ;
229    
230         char line[LINELEN]; 
231
232         if ((f=fopen(opts->server->authname,"r"))==NULL) {
233                 msg4(LOG_INFO,"Can't open authorization file %s (%s).",
234                      opts->server->authname,strerror(errno)) ;
235                 return 1 ; 
236         }
237   
238         while (fgets(line,LINELEN,f)!=NULL) {
239                 if (strncmp(line,opts->clientname,strlen(opts->clientname))==0) {
240                         fclose(f);
241                         return 1;
242                 }
243         }
244         fclose(f) ;
245         return 0 ;
246 }
247
248 /**
249  * Read data from a file descriptor into a buffer
250  *
251  * @param f a file descriptor
252  * @param buf a buffer
253  * @param len the number of bytes to be read
254  **/
255 inline void readit(int f, void *buf, size_t len) {
256         ssize_t res;
257         while (len > 0) {
258                 DEBUG("*");
259                 if ((res = read(f, buf, len)) <= 0)
260                         err("Read failed: %m");
261                 len -= res;
262                 buf += res;
263         }
264 }
265
266 /**
267  * Write data from a buffer into a filedescriptor
268  *
269  * @param f a file descriptor
270  * @param buf a buffer containing data
271  * @param len the number of bytes to be written
272  **/
273 inline void writeit(int f, void *buf, size_t len) {
274         ssize_t res;
275         while (len > 0) {
276                 DEBUG("+");
277                 if ((res = write(f, buf, len)) <= 0)
278                         err("Send failed: %m");
279                 len -= res;
280                 buf += res;
281         }
282 }
283
284 /**
285  * Print out a message about how to use nbd-server. Split out to a separate
286  * function so that we can call it from multiple places
287  */
288 void usage() {
289         printf("This is nbd-server version " VERSION "\n");
290         printf("Usage: port file_to_export [size][kKmM] [-l authorize_file] [-r] [-m] [-c] [-a timeout_sec]\n"
291                "\t-r|--read-only\t\tread only\n"
292                "\t-m|--multi-file\t\tmultiple file\n"
293                "\t-c|--copy-on-write\tcopy on write\n"
294                "\t-l|--authorize-file\tfile with list of hosts that are allowed to\n\t\t\t\tconnect.\n"
295                "\t-a|--idle-time\t\tmaximum idle seconds; server terminates when\n\t\t\t\tidle time exceeded\n\n"
296                "\tif port is set to 0, stdin is used (for running from inetd)\n"
297                "\tif file_to_export contains '%%s', it is substituted with the IP\n"
298                "\t\taddress of the machine trying to connect\n" );
299         printf("Using configuration file %s\n", CFILE);
300 }
301
302 /**
303  * Parse the command line.
304  *
305  * @param argc the argc argument to main()
306  * @param argv the argv argument to main()
307  **/
308 SERVER* cmdline(int argc, char *argv[]) {
309         int i=0;
310         int nonspecial=0;
311         int c;
312         struct option long_options[] = {
313                 {"read-only", no_argument, NULL, 'r'},
314                 {"multi-file", no_argument, NULL, 'm'},
315                 {"copy-on-write", no_argument, NULL, 'c'},
316                 {"authorize-file", required_argument, NULL, 'l'},
317                 {"idle-time", required_argument, NULL, 'a'},
318                 {"config-file", required_argument, NULL, 'C'},
319                 {0,0,0,0}
320         };
321         SERVER *serve;
322         off_t es;
323         size_t last;
324         char suffix;
325
326         if(argc==1) {
327                 return NULL;
328         }
329         serve=g_new0(SERVER, 1);
330         serve->hunksize=OFFT_MAX;
331         serve->authname = g_strdup(default_authname);
332         while((c=getopt_long(argc, argv, "-a:C:cl:mr", long_options, &i))>=0) {
333                 switch (c) {
334                 case 1:
335                         /* non-option argument */
336                         switch(nonspecial++) {
337                         case 0:
338                                 serve->port=strtol(optarg, NULL, 0);
339                                 break;
340                         case 1:
341                                 serve->exportname = g_strdup(optarg);
342                                 if(serve->exportname[0] != '/') {
343                                         fprintf(stderr, "E: The to be exported file needs to be an absolute filename!\n");
344                                         exit(EXIT_FAILURE);
345                                 }
346                                 break;
347                         case 2:
348                                 last=strlen(optarg)-1;
349                                 suffix=optarg[last];
350                                 if (suffix == 'k' || suffix == 'K' ||
351                                     suffix == 'm' || suffix == 'M')
352                                         optarg[last] = '\0';
353                                 es = (off_t)atol(optarg);
354                                 switch (suffix) {
355                                         case 'm':
356                                         case 'M':  es <<= 10;
357                                         case 'k':
358                                         case 'K':  es <<= 10;
359                                         default :  break;
360                                 }
361                                 serve->expected_size = es;
362                                 break;
363                         }
364                         break;
365                 case 'r':
366                         serve->flags |= F_READONLY;
367                         break;
368                 case 'm':
369                         serve->flags |= F_MULTIFILE;
370                         serve->hunksize = 1*GIGA;
371                         break;
372                 case 'c': 
373                         serve->flags |=F_COPYONWRITE;
374                         break;
375                 case 'C':
376                         g_free(config_file_pos);
377                         config_file_pos=g_strdup(optarg);
378                         break;
379                 case 'l':
380                         g_free(serve->authname);
381                         serve->authname=g_strdup(optarg);
382                         break;
383                 case 'a': 
384                         serve->timeout=strtol(optarg, NULL, 0);
385                         break;
386                 default:
387                         usage();
388                         exit(EXIT_FAILURE);
389                         break;
390                 }
391         }
392         /* What's left: the port to export, the name of the to be exported
393          * file, and, optionally, the size of the file, in that order. */
394         if(nonspecial<2) {
395                 usage();
396                 exit(EXIT_FAILURE);
397         }
398         return serve;
399 }
400
401 /**
402  * Error codes for config file parsing
403  **/
404 typedef enum {
405         CFILE_NOTFOUND,         /**< The configuration file is not found */
406         CFILE_MISSING_GENERIC,  /**< The (required) group "generic" is missing */
407         CFILE_KEY_MISSING,      /**< A (required) key is missing */
408         CFILE_VALUE_INVALID,    /**< A value is syntactically invalid */
409         CFILE_PROGERR           /**< Programmer error */
410 } CFILE_ERRORS;
411
412 /**
413  * Remove a SERVER from memory. Used from the hash table
414  **/
415 void remove_server(gpointer s) {
416         SERVER *server;
417
418         server=(SERVER*)s;
419         g_free(server->exportname);
420         if(server->authname)
421                 g_free(server->authname);
422         g_free(server);
423 }
424
425 /**
426  * Parse the config file.
427  *
428  * @param f the name of the config file
429  * @param e a GError. @see CFILE_ERRORS for what error values this function can
430  *      return.
431  * @return a GHashTable of SERVER* pointers, with the port number as the hash
432  *      key. If the config file is empty or does not exist, returns an empty
433  *      GHashTable; if the config file contains an error, returns NULL, and
434  *      e is set appropriately
435  **/
436 GHashTable* parse_cfile(gchar* f, GError** e) {
437         SERVER *s;
438         PARAM p[] = {
439                 { "exportname", TRUE,   PARAM_STRING,   NULL, 0 },
440                 { "port",       TRUE,   PARAM_INT,      NULL, 0 },
441                 { "authfile",   FALSE,  PARAM_STRING,   NULL, 0 },
442                 { "timeout",    FALSE,  PARAM_INT,      NULL, 0 },
443                 { "filesize",   FALSE,  PARAM_INT,      NULL, 0 },
444                 { "readonly",   FALSE,  PARAM_BOOL,     NULL, F_READONLY },
445                 { "multifile",  FALSE,  PARAM_BOOL,     NULL, F_MULTIFILE },
446                 { "copyonwrite", FALSE, PARAM_BOOL,     NULL, F_COPYONWRITE },
447         };
448         GKeyFile *cfile;
449         GError *err = NULL;
450         GQuark errdomain;
451         GHashTable *retval;
452         gchar **groups;
453         gboolean value;
454         gint i,j;
455
456         errdomain = g_quark_from_string("parse_cfile");
457         cfile = g_key_file_new();
458         retval = g_hash_table_new_full(g_int_hash, g_int_equal, NULL, remove_server);
459         if(!g_key_file_load_from_file(cfile, f, G_KEY_FILE_KEEP_COMMENTS |
460                         G_KEY_FILE_KEEP_TRANSLATIONS, &err)) {
461                 g_set_error(e, errdomain, CFILE_NOTFOUND, "Could not open config file.");
462                 g_key_file_free(cfile);
463                 return retval;
464         }
465         if(strcmp(g_key_file_get_start_group(cfile), "generic")) {
466                 g_set_error(e, errdomain, CFILE_MISSING_GENERIC, "Config file does not contain the [generic] group!");
467                 g_key_file_free(cfile);
468                 return NULL;
469         }
470         groups = g_key_file_get_groups(cfile, NULL);
471         for(i=0;groups[i];i++) {
472                 s=g_new0(SERVER, 1);
473                 p[0].target=&(s->exportname);
474                 p[1].target=&(s->port);
475                 p[2].target=&(s->authname);
476                 p[3].target=&(s->timeout);
477                 p[4].target=&(s->expected_size);
478                 p[5].target=p[6].target=p[7].target=p[8].target=&(s->flags);
479                 for(j=0;j<9;j++) {
480                         g_assert(p[j].target != NULL);
481                         g_assert(p[j].ptype==PARAM_INT||p[j].ptype==PARAM_STRING||p[j].ptype==PARAM_BOOL);
482                         switch(p[j].ptype) {
483                                 case PARAM_INT:
484                                         *((gint*)p[j].target) = g_key_file_get_integer(cfile, groups[i], p[j].paramname, &err);
485                                         break;
486                                 case PARAM_STRING:
487                                         *((gchar**)p[j].target) = g_key_file_get_string(cfile, groups[i], p[j].paramname, &err);
488                                         break;
489                                 case PARAM_BOOL:
490                                         value = g_key_file_get_boolean(cfile, groups[i], p[j].paramname, &err);
491                                         if(!err) {
492                                                 *((gint*)p[j].target) |= value;
493                                         }
494                                         break;
495                         }
496                         if(err) {
497                                 if(err->code == G_KEY_FILE_ERROR_KEY_NOT_FOUND) {
498                                         if(p[j].required) {
499                                                 g_set_error(e, errdomain, CFILE_KEY_MISSING, "Could not find required value %s in group %s: %s", p[j].paramname, groups[i], err->message);
500                                                 g_hash_table_destroy(retval);
501                                                 g_error_free(err);
502                                                 g_key_file_free(cfile);
503                                                 g_free(s);
504                                                 return NULL;
505                                         } else {
506                                                 g_error_free(err);
507                                                 continue;
508                                         }
509                                         g_set_error(e, errdomain, CFILE_VALUE_INVALID, "Could not parse %s in group %s: %s", p[j].paramname, groups[i], err->message);
510                                         g_hash_table_destroy(retval);
511                                         g_error_free(err);
512                                         g_key_file_free(cfile);
513                                         g_free(s);
514                                         return NULL;
515                                 }
516                         }
517                 }
518                 g_hash_table_insert(retval, &(s->port), s);
519         }
520         return retval;
521 }
522
523 /**
524  * Signal handler for SIGCHLD
525  * @param s the signal we're handling (must be SIGCHLD, or something
526  * is severely wrong)
527  **/
528 void sigchld_handler(int s) {
529         int* status=NULL;
530         int* i;
531         pid_t pid;
532
533         while((pid=wait(status)) > 0) {
534                 if(WIFEXITED(status)) {
535                         msg3(LOG_INFO, "Child exited with %d", WEXITSTATUS(status));
536                 }
537                 i=g_hash_table_lookup(children, &pid);
538                 if(!i) {
539                         msg3(LOG_INFO, "SIGCHLD received for an unknown child with PID %ld", (long)pid);
540                 } else {
541                         DEBUG2("Removing %d from the list of children", pid);
542                         g_hash_table_remove(children, &pid);
543                 }
544         }
545 }
546
547 /**
548  * Kill a child. Called from sigterm_handler::g_hash_table_foreach.
549  *
550  * @param key the key
551  * @param value the value corresponding to the above key
552  * @param user_data a pointer which we always set to 1, so that we know what
553  * will happen next.
554  **/
555 void killchild(gpointer key, gpointer value, gpointer user_data) {
556         pid_t *pid=value;
557         int *parent=user_data;
558
559         kill(*pid, SIGTERM);
560         *parent=1;
561 }
562
563 /**
564  * Handle SIGTERM and dispatch it to our children
565  * @param s the signal we're handling (must be SIGTERM, or something
566  * is severely wrong).
567  **/
568 void sigterm_handler(int s) {
569         int parent=0;
570
571         g_hash_table_foreach(children, killchild, &parent);
572
573         if(parent) {
574                 unlink(pidfname);
575         }
576
577         exit(0);
578 }
579
580 /**
581  * Detect the size of a file.
582  *
583  * @param export An open filedescriptor
584  * @return the size of the file, or OFFT_MAX if detection was
585  * impossible.
586  **/
587 off_t size_autodetect(int export) {
588         off_t es;
589         u32 es32;
590         struct stat stat_buf;
591         int error;
592
593 #ifdef HAVE_SYS_MOUNT_H
594 #ifdef HAVE_SYS_IOCTL_H
595 #ifdef BLKGETSIZE
596         DEBUG("looking for export size with ioctl BLKGETSIZE\n");
597         if (!ioctl(export, BLKGETSIZE, &es32) && es32) {
598                 es = (off_t)es32 * (off_t)512;
599                 return es;
600         }
601 #endif /* BLKGETSIZE */
602 #endif /* HAVE_SYS_IOCTL_H */
603 #endif /* HAVE_SYS_MOUNT_H */
604
605         DEBUG("looking for export size with fstat\n");
606         stat_buf.st_size = 0;
607         error = fstat(export, &stat_buf);
608         if (!error) {
609                 if(stat_buf.st_size > 0)
610                         return (off_t)stat_buf.st_size;
611         } else {
612                 err("fstat failed: %m");
613         }
614
615         DEBUG("looking for export size with lseek SEEK_END\n");
616         es = lseek(export, (off_t)0, SEEK_END);
617         if (es > ((off_t)0)) {
618                 return es;
619         } else {
620                 DEBUG2("lseek failed: %d", errno==EBADF?1:(errno==ESPIPE?2:(errno==EINVAL?3:4)));
621         }
622
623         err("Could not find size of exported block device: %m");
624         return OFFT_MAX;
625 }
626
627 /**
628  * seek to a position in a file, with error handling.
629  * @param handle a filedescriptor
630  * @param a position to seek to
631  * @todo get rid of this; lastpoint is a global variable right now, but it
632  * shouldn't be. If we pass it on as a parameter, that makes things a *lot*
633  * easier.
634  **/
635 void myseek(int handle,off_t a) {
636         if (lseek(handle, a, SEEK_SET) < 0) {
637                 err("Can not seek locally!\n");
638         }
639 }
640
641 /**
642  * Write an amount of bytes at a given offset to the right file. This
643  * abstracts the write-side of the multiple file option.
644  *
645  * @param a The offset where the write should start
646  * @param buf The buffer to write from
647  * @param len The length of buf
648  * @param client The client we're serving for
649  * @return The number of bytes actually written, or -1 in case of an error
650  **/
651 int rawexpwrite(off_t a, char *buf, size_t len, CLIENT *client) {
652         ssize_t res;
653
654         myseek(g_array_index(client->export, int, (int)(a/client->server->hunksize)), a%client->server->hunksize);
655         ;
656         res = write(g_array_index(client->export, int, (int)((off_t)a/(off_t)(client->server->hunksize))), buf, len);
657         return (res < 0 || (size_t)res != len);
658 }
659
660 /**
661  * Read an amount of bytes at a given offset from the right file. This
662  * abstracts the read-side of the multiple files option.
663  *
664  * @param a The offset where the read should start
665  * @param buf A buffer to read into
666  * @param len The size of buf
667  * @param client The client we're serving for
668  * @return The number of bytes actually read, or -1 in case of an
669  * error.
670  **/
671 int rawexpread(off_t a, char *buf, size_t len, CLIENT *client) {
672         ssize_t res;
673
674         myseek(g_array_index(client->export,int,(int)a/client->server->hunksize),
675                         a%client->server->hunksize);
676         res = read(g_array_index(client->export,int,(int)a/client->server->hunksize), buf, len);
677         return (res < 0 || (size_t)res != len);
678 }
679
680 /**
681  * Read an amount of bytes at a given offset from the right file. This
682  * abstracts the read-side of the copyonwrite stuff, and calls
683  * rawexpread() with the right parameters to do the actual work.
684  * @param a The offset where the read should start
685  * @param buf A buffer to read into
686  * @param len The size of buf
687  * @param client The client we're going to read for
688  * @return The number of bytes actually read, or -1 in case of an error
689  **/
690 int expread(off_t a, char *buf, size_t len, CLIENT *client) {
691         off_t rdlen, offset;
692         off_t mapcnt, mapl, maph, pagestart;
693
694         if (!(client->server->flags & F_COPYONWRITE))
695                 return rawexpread(a, buf, len, client);
696         DEBUG3("Asked to read %d bytes at %Lu.\n", len, (unsigned long long)a);
697
698         mapl=a/DIFFPAGESIZE; maph=(a+len-1)/DIFFPAGESIZE;
699
700         for (mapcnt=mapl;mapcnt<=maph;mapcnt++) {
701                 pagestart=mapcnt*DIFFPAGESIZE;
702                 offset=a-pagestart;
703                 rdlen=(0<DIFFPAGESIZE-offset && len<(size_t)(DIFFPAGESIZE-offset)) ?
704                         len : (size_t)DIFFPAGESIZE-offset;
705                 if (client->difmap[mapcnt]!=(u32)(-1)) { /* the block is already there */
706                         DEBUG3("Page %Lu is at %lu\n", (unsigned long long)mapcnt,
707                                (unsigned long)(client->difmap[mapcnt]));
708                         myseek(client->difffile, client->difmap[mapcnt]*DIFFPAGESIZE+offset);
709                         if (read(client->difffile, buf, rdlen) != rdlen) return -1;
710                 } else { /* the block is not there */
711                         DEBUG2("Page %Lu is not here, we read the original one\n",
712                                (unsigned long long)mapcnt);
713                         if(rawexpread(a, buf, rdlen, client)) return -1;
714                 }
715                 len-=rdlen; a+=rdlen; buf+=rdlen;
716         }
717         return 0;
718 }
719
720 /**
721  * Write an amount of bytes at a given offset to the right file. This
722  * abstracts the write-side of the copyonwrite option, and calls
723  * rawexpwrite() with the right parameters to do the actual work.
724  *
725  * @param a The offset where the write should start
726  * @param buf The buffer to write from
727  * @param len The length of buf
728  * @param client The client we're going to write for.
729  * @return The number of bytes actually written, or -1 in case of an error
730  **/
731 int expwrite(off_t a, char *buf, size_t len, CLIENT *client) {
732         char pagebuf[DIFFPAGESIZE];
733         off_t mapcnt,mapl,maph;
734         off_t wrlen,rdlen; 
735         off_t pagestart;
736         off_t offset;
737
738         if (!(client->server->flags & F_COPYONWRITE))
739                 return(rawexpwrite(a,buf,len, client)); 
740         DEBUG3("Asked to write %d bytes at %Lu.\n", len, (unsigned long long)a);
741
742         mapl=a/DIFFPAGESIZE ; maph=(a+len-1)/DIFFPAGESIZE ;
743
744         for (mapcnt=mapl;mapcnt<=maph;mapcnt++) {
745                 pagestart=mapcnt*DIFFPAGESIZE ;
746                 offset=a-pagestart ;
747                 wrlen=(0<DIFFPAGESIZE-offset && len<(size_t)(DIFFPAGESIZE-offset)) ?
748                         len : (size_t)DIFFPAGESIZE-offset;
749
750                 if (client->difmap[mapcnt]!=(u32)(-1)) { /* the block is already there */
751                         DEBUG3("Page %Lu is at %lu\n", (unsigned long long)mapcnt,
752                                (unsigned long)(client->difmap[mapcnt])) ;
753                         myseek(client->difffile,
754                                         client->difmap[mapcnt]*DIFFPAGESIZE+offset);
755                         if (write(client->difffile, buf, wrlen) != wrlen) return -1 ;
756                 } else { /* the block is not there */
757                         myseek(client->difffile,client->difffilelen*DIFFPAGESIZE) ;
758                         client->difmap[mapcnt]=client->difffilelen++ ;
759                         DEBUG3("Page %Lu is not here, we put it at %lu\n",
760                                (unsigned long long)mapcnt,
761                                (unsigned long)(client->difmap[mapcnt]));
762                         rdlen=DIFFPAGESIZE ;
763                         if (rdlen+pagestart%(client->server->hunksize) >
764                                         (client->server->hunksize)) 
765                                 rdlen=client->server->hunksize -
766                                         (pagestart%client->server->hunksize);
767                         if (rawexpread(pagestart, pagebuf, rdlen, client))
768                                 return -1;
769                         memcpy(pagebuf+offset,buf,wrlen) ;
770                         if (write(client->difffile, pagebuf, DIFFPAGESIZE) !=
771                                         DIFFPAGESIZE)
772                                 return -1;
773                 }                                                   
774                 len-=wrlen ; a+=wrlen ; buf+=wrlen ;
775         }
776         return 0;
777 }
778
779 /**
780  * Do the initial negotiation.
781  *
782  * @param client The client we're negotiating with.
783  **/
784 void negotiate(CLIENT *client) {
785         char zeros[300];
786         u64 size_host;
787
788         memset(zeros, 0, 290);
789         if (write(client->net, INIT_PASSWD, 8) < 0)
790                 err("Negotiation failed: %m");
791         cliserv_magic = htonll(cliserv_magic);
792         if (write(client->net, &cliserv_magic, sizeof(cliserv_magic)) < 0)
793                 err("Negotiation failed: %m");
794         size_host = htonll((u64)(client->exportsize));
795         if (write(client->net, &size_host, 8) < 0)
796                 err("Negotiation failed: %m");
797         if (write(client->net, zeros, 128) < 0)
798                 err("Negotiation failed: %m");
799 }
800
801 /** sending macro. */
802 #define SEND(net,reply) writeit( net, &reply, sizeof( reply ));
803 /** error macro. */
804 #define ERROR(client,reply) { reply.error = htonl(-1); SEND(client->net,reply); reply.error = 0; }
805 /**
806  * Serve a file to a single client.
807  *
808  * @todo This beast needs to be split up in many tiny little manageable
809  * pieces. Preferably with a chainsaw.
810  *
811  * @param client The client we're going to serve to.
812  * @return never
813  **/
814 int mainloop(CLIENT *client) {
815         struct nbd_request request;
816         struct nbd_reply reply;
817         gboolean go_on=TRUE;
818 #ifdef DODBG
819         int i = 0;
820 #endif
821         negotiate(client);
822         DEBUG("Entering request loop!\n");
823         reply.magic = htonl(NBD_REPLY_MAGIC);
824         reply.error = 0;
825         while (go_on) {
826                 char buf[BUFSIZE];
827                 size_t len;
828 #ifdef DODBG
829                 i++;
830                 printf("%d: ", i);
831 #endif
832                 if (client->server->timeout) 
833                         alarm(client->server->timeout);
834                 readit(client->net, &request, sizeof(request));
835                 request.from = ntohll(request.from);
836                 request.type = ntohl(request.type);
837
838                 if (request.type==NBD_CMD_DISC) {
839                         msg2(LOG_INFO, "Disconnect request received.");
840                         if (client->difmap) g_free(client->difmap) ;
841                         if (client->difffile>=0) { 
842                                 close(client->difffile);
843                                 unlink(client->difffilename);
844                                 free(client->difffilename);
845                         }
846                         go_on=FALSE;
847                         continue;
848                 }
849
850                 len = ntohl(request.len);
851
852                 if (request.magic != htonl(NBD_REQUEST_MAGIC))
853                         err("Not enough magic.");
854                 if (len > BUFSIZE + sizeof(struct nbd_reply))
855                         err("Request too big!");
856 #ifdef DODBG
857                 printf("%s from %Lu (%Lu) len %d, ", request.type ? "WRITE" :
858                                 "READ", (unsigned long long)request.from,
859                                 (unsigned long long)request.from / 512, len);
860 #endif
861                 memcpy(reply.handle, request.handle, sizeof(reply.handle));
862                 if ((request.from + len) > (OFFT_MAX)) {
863                         DEBUG("[Number too large!]");
864                         ERROR(client, reply);
865                         continue;
866                 }
867
868                 if (((ssize_t)((off_t)request.from + len) > client->exportsize) ||
869                     ((client->server->flags & F_READONLY) && request.type)) {
870                         DEBUG("[RANGE!]");
871                         ERROR(client, reply);
872                         continue;
873                 }
874
875                 if (request.type==NBD_CMD_WRITE) {
876                         DEBUG("wr: net->buf, ");
877                         readit(client->net, buf, len);
878                         DEBUG("buf->exp, ");
879                         if ((client->server->flags & F_AUTOREADONLY) ||
880                                         expwrite(request.from, buf, len,
881                                                 client)) {
882                                 DEBUG("Write failed: %m" );
883                                 ERROR(client, reply);
884                                 continue;
885                         }
886                         SEND(client->net, reply);
887                         DEBUG("OK!\n");
888                         continue;
889                 }
890                 /* READ */
891
892                 DEBUG("exp->buf, ");
893                 if (expread(request.from, buf + sizeof(struct nbd_reply), len, client)) {
894                         DEBUG("Read failed: %m");
895                         ERROR(client, reply);
896                         continue;
897                 }
898
899                 DEBUG("buf->net, ");
900                 memcpy(buf, &reply, sizeof(struct nbd_reply));
901                 writeit(client->net, buf, len + sizeof(struct nbd_reply));
902                 DEBUG("OK!\n");
903         }
904         return 0;
905 }
906
907 /**
908  * Split a single exportfile into multiple ones, if that was asked.
909  * @return 0 on success, -1 on failure
910  * @param client information on the client which we want to split
911  **/
912 int splitexport(CLIENT* client) {
913         off_t i;
914         int fhandle;
915
916         client->export = g_array_new(TRUE, TRUE, sizeof(int));
917         for (i=0; i<client->exportsize; i+=client->server->hunksize) {
918                 gchar *tmpname;
919
920                 if(client->server->flags & F_MULTIFILE) {
921                         tmpname=g_strdup_printf("%s.%d", client->exportname,
922                                         (int)(i/client->server->hunksize));
923                 } else {
924                         tmpname=g_strdup(client->exportname);
925                 }
926                 DEBUG2( "Opening %s\n", tmpname );
927                 if((fhandle = open(tmpname, (client->server->flags & F_READONLY) ? O_RDONLY : O_RDWR)) == -1) {
928                         /* Read WRITE ACCESS was requested by media is only read only */
929                         client->server->flags |= F_AUTOREADONLY;
930                         client->server->flags |= F_READONLY;
931                         if((fhandle = open(tmpname, O_RDONLY)) == -1)
932                                 err("Could not open exported file: %m");
933                 }
934                 g_array_insert_val(client->export,i/client->server->hunksize,fhandle);
935                 g_free(tmpname);
936         }
937         return 0;
938 }
939 int copyonwrite_prepare(CLIENT* client)
940 {
941         off_t i;
942         if ((client->difffilename = malloc(1024))==NULL)
943                 err("Failed to allocate string for diff file name");
944         snprintf(client->difffilename, 1024, "%s-%s-%d.diff",client->exportname,client->clientname,
945                 (int)getpid()) ;
946         client->difffilename[1023]='\0';
947         msg3(LOG_INFO,"About to create map and diff file %s",client->difffilename) ;
948         client->difffile=open(client->difffilename,O_RDWR | O_CREAT | O_TRUNC,0600) ;
949         if (client->difffile<0) err("Could not create diff file (%m)") ;
950         if ((client->difmap=calloc(client->exportsize/DIFFPAGESIZE,sizeof(u32)))==NULL)
951                 err("Could not allocate memory") ;
952         for (i=0;i<client->exportsize/DIFFPAGESIZE;i++) client->difmap[i]=(u32)-1 ;
953
954         return 0;
955 }
956
957 /**
958  * Serve a connection. 
959  *
960  * @todo allow for multithreading, perhaps use libevent. Not just yet, though;
961  * follow the road map.
962  *
963  * @param client a connected client
964  **/
965 void serveconnection(CLIENT *client) {
966         splitexport(client);
967
968         if (!client->server->expected_size) {
969                 client->exportsize = size_autodetect(g_array_index(client->export,int,0));
970         } else {
971                 /* Perhaps we should check first. Not now. */
972                 client->exportsize = client->server->expected_size;
973         }
974         if (client->exportsize > OFFT_MAX) {
975                 /* uhm, well... In a parallel universe, this *might* be
976                  * possible... */
977                 err("Size of exported file is too big\n");
978         }
979         else {
980                 msg3(LOG_INFO, "size of exported file/device is %Lu", (unsigned long long)client->exportsize);
981         }
982
983         if (client->server->flags & F_COPYONWRITE) {
984                 copyonwrite_prepare(client);
985         }
986
987         setmysockopt(client->net);
988
989         mainloop(client);
990 }
991
992 /**
993  * Find the name of the file we have to serve. This will use g_strdup_printf
994  * to put the IP address of the client inside a filename containing
995  * "%s". That name is then written to client->exportname.
996  *
997  * @param net A socket connected to an nbd client
998  * @param client information about the client. The IP address in human-readable
999  * format will be written to a new char* buffer, the address of which will be
1000  * stored in client->clientname.
1001  **/
1002 void set_peername(int net, CLIENT *client) {
1003         struct sockaddr_in addrin;
1004         int addrinlen = sizeof( addrin );
1005         char *peername ;
1006
1007         if (getpeername(net, (struct sockaddr *) &addrin, (socklen_t *)&addrinlen) < 0)
1008                 err("getsockname failed: %m");
1009         peername = inet_ntoa(addrin.sin_addr);
1010         client->exportname=g_strdup_printf(client->server->exportname, peername);
1011
1012         msg4(LOG_INFO, "connect from %s, assigned file is %s", 
1013              peername, client->exportname);
1014         client->clientname=g_strdup(peername);
1015 }
1016
1017 /**
1018  * Destroy a pid_t*
1019  * @param data a pointer to pid_t which should be freed
1020  **/
1021 void destroy_pid_t(gpointer data) {
1022         g_free(data);
1023 }
1024
1025 /**
1026  * Go daemon (unless we specified at compile time that we didn't want this)
1027  * @param serve the first server of our configuration. If its port is zero,
1028  *      then do not daemonize, because we're doing inetd then. This parameter
1029  *      is only used to create a PID file of the form
1030  *      /var/run/nbd-server.&lt;port&gt;.pid; it's not modified in any way.
1031  **/
1032 #if !defined(NODAEMON) && !defined(NOFORK)
1033 void daemonize(SERVER* serve) {
1034         FILE*pidf;
1035
1036         if(daemon(0,0)<0) {
1037                 err("daemon");
1038         }
1039         if(serve) {
1040                 snprintf(pidfname, sizeof(char)*255, "/var/run/nbd-server.%d.pid", serve->port);
1041         } else {
1042                 strncpy(pidfname, "/var/run/nbd-server.pid", sizeof(char)*255);
1043         }
1044         pidf=fopen(pidfname, "w");
1045         if(pidf) {
1046                 fprintf(pidf,"%d\n", (int)getpid());
1047                 fclose(pidf);
1048         } else {
1049                 perror("fopen");
1050                 fprintf(stderr, "Not fatal; continuing");
1051         }
1052 }
1053 #else
1054 #define daemonize(serve)
1055 #endif /* !defined(NODAEMON) && !defined(NOFORK) */
1056
1057 /**
1058  * Connect a server's socket.
1059  *
1060  * @todo modularize this giant beast.
1061  *
1062  * @param port the port we're connecting to (we don't need it, but
1063  * g_hash_table_foreach requires it)
1064  * @param serve the server we want to connect.
1065  * @param data (unused) user data.
1066  **/
1067 void setup_serve(gpointer port, gpointer s, gpointer data) {
1068         struct sockaddr_in addrin;
1069         struct sigaction sa;
1070         int addrinlen = sizeof(addrin);
1071 #ifndef sun
1072         int yes=1;
1073 #else
1074         char yes='1';
1075 #endif /* sun */
1076         SERVER *serve=(SERVER*)s;
1077
1078         g_assert(data==NULL);
1079         if ((serve->socket = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) < 0)
1080                 err("socket: %m");
1081
1082         /* lose the pesky "Address already in use" error message */
1083         if (setsockopt(serve->socket,SOL_SOCKET,SO_REUSEADDR,&yes,sizeof(int)) == -1) {
1084                 err("setsockopt SO_REUSEADDR");
1085         }
1086         if (setsockopt(serve->socket,SOL_SOCKET,SO_KEEPALIVE,&yes,sizeof(int)) == -1) {
1087                 err("setsockopt SO_KEEPALIVE");
1088         }
1089
1090         DEBUG("Waiting for connections... bind, ");
1091         addrin.sin_family = AF_INET;
1092         addrin.sin_port = htons(serve->port);
1093         addrin.sin_addr.s_addr = 0;
1094         if (bind(serve->socket, (struct sockaddr *) &addrin, addrinlen) < 0)
1095                 err("bind: %m");
1096         DEBUG("listen, ");
1097         if (listen(serve->socket, 1) < 0)
1098                 err("listen: %m");
1099         sa.sa_handler = sigchld_handler;
1100         sigemptyset(&sa.sa_mask);
1101         sa.sa_flags = SA_RESTART;
1102         if(sigaction(SIGCHLD, &sa, NULL) == -1)
1103                 err("sigaction: %m");
1104         sa.sa_handler = sigterm_handler;
1105         sigemptyset(&sa.sa_mask);
1106         sa.sa_flags = SA_RESTART;
1107         if(sigaction(SIGTERM, &sa, NULL) == -1)
1108                 err("sigaction: %m");
1109         children=g_hash_table_new_full(g_int_hash, g_int_equal, NULL, destroy_pid_t);
1110 }
1111
1112 /**
1113  * Connect our servers.
1114  **/
1115 void setup_servers(GHashTable* servers) {
1116         g_hash_table_foreach(servers, setup_serve, NULL);
1117 }
1118
1119 /**
1120  * Loop through the available servers, and serve them.
1121  *
1122  * Actually, right now we only handle one server. Will change that for
1123  * 2.9.
1124  **/
1125 int serveloop(SERVER* serve) {
1126         struct sockaddr_in addrin;
1127         socklen_t addrinlen=sizeof(addrin);
1128         for(;;) {
1129                 CLIENT *client;
1130                 int net;
1131                 pid_t *pid;
1132
1133                 DEBUG("accept, ");
1134                 if ((net = accept(serve->socket, (struct sockaddr *) &addrin, &addrinlen)) < 0)
1135                         err("accept: %m");
1136
1137                 client = g_malloc(sizeof(CLIENT));
1138                 client->server=serve;
1139                 client->exportsize=OFFT_MAX;
1140                 client->net=net;
1141                 set_peername(net, client);
1142                 if (!authorized_client(client)) {
1143                         msg2(LOG_INFO,"Unauthorized client") ;
1144                         close(net) ;
1145                         continue ;
1146                 }
1147                 msg2(LOG_INFO,"Authorized client") ;
1148                 pid=g_malloc(sizeof(pid_t));
1149 #ifndef NOFORK
1150                 if ((*pid=fork())<0) {
1151                         msg3(LOG_INFO,"Could not fork (%s)",strerror(errno)) ;
1152                         close(net) ;
1153                         continue ;
1154                 }
1155                 if (*pid>0) { /* parent */
1156                         close(net);
1157                         g_hash_table_insert(children, pid, pid);
1158                         continue;
1159                 }
1160                 /* child */
1161                 g_hash_table_destroy(children);
1162                 close(serve->socket) ;
1163 #endif // NOFORK
1164                 msg2(LOG_INFO,"Starting to serve") ;
1165                 serveconnection(client);
1166         }
1167 }
1168
1169 /**
1170  * Main entry point...
1171  **/
1172 int main(int argc, char *argv[]) {
1173         SERVER *serve;
1174         GHashTable *servers;
1175         GError *err=NULL;
1176
1177         if (sizeof( struct nbd_request )!=28) {
1178                 fprintf(stderr,"Bad size of structure. Alignment problems?\n");
1179                 exit(-1) ;
1180         }
1181
1182         logging();
1183         config_file_pos = g_strdup(CFILE);
1184         serve=cmdline(argc, argv);
1185         servers = parse_cfile(config_file_pos, &err);
1186         if(!servers) {
1187                 g_critical("Could not parse command file: %s", err->message);
1188         }
1189         if(serve) {
1190                 g_hash_table_insert(servers, &serve->port, serve);
1191         }
1192
1193 /* We don't support this at this time */
1194 #if 0
1195         if (!(serve->port)) {
1196                 CLIENT *client;
1197 #ifndef ISSERVER
1198                 /* You really should define ISSERVER if you're going to use
1199                  * inetd mode, but if you don't, closing stdout and stderr
1200                  * (which inetd had connected to the client socket) will let it
1201                  * work. */
1202                 close(1);
1203                 close(2);
1204                 open("/dev/null", O_WRONLY);
1205                 open("/dev/null", O_WRONLY);
1206 #endif
1207                 client=g_malloc(sizeof(CLIENT));
1208                 client->server=serve;
1209                 client->net=0;
1210                 client->exportsize=OFFT_MAX;
1211                 set_peername(0,client);
1212                 serveconnection(client);
1213                 return 0;
1214         }
1215 #endif
1216         if((!serve) && (!servers)) {
1217                 g_message("Nothing to do! Bye!");
1218                 exit(EXIT_FAILURE);
1219         }
1220         daemonize(serve);
1221         setup_servers(servers);
1222         serveloop(servers);
1223         return 0 ;
1224 }