r27: Rewrote the way we define OFFT_MAX, which would otherwise break on
[nbd.git] / nbd-server.c
1 /*
2  * Network Block Device - server
3  *
4  * Copyright 1996-1998 Pavel Machek, distribute under GPL
5  *  <pavel@atrey.karlin.mff.cuni.cz>
6  * Copyright 2002 Anton Altaparmakov <aia21@cam.ac.uk>
7  *
8  * Version 1.0 - hopefully 64-bit-clean
9  * Version 1.1 - merging enhancements from Josh Parsons, <josh@coombs.anu.edu.au>
10  * Version 1.2 - autodetect size of block devices, thanx to Peter T. Breuer" <ptb@it.uc3m.es>
11  * Version 1.5 - can compile on Unix systems that don't have 64 bit integer
12  *      type, or don't have 64 bit file offsets by defining FS_32BIT
13  *      in compile options for nbd-server *only*. This can be done
14  *      with make FSCHOICE=-DFS_32BIT nbd-server. (I don't have the
15  *      original autoconf input file, or I would make it a configure
16  *      option.) Ken Yap <ken@nlc.net.au>.
17  * Version 1.6 - fix autodetection of block device size and really make 64 bit
18  *      clean on 32 bit machines. Anton Altaparmakov <aia21@cam.ac.uk>
19  * Version 2.0 - Version synchronised with client
20  * Version 2.1 - Reap zombie client processes when they exit. Removed
21  *      (uncommented) the _IO magic, it's no longer necessary. Wouter
22  *      Verhelst <wouter@debian.org>
23  * Version 2.2 - Auto switch to read-only mode (usefull for floppies).
24  * Version 2.3 - Fixed code so that Large File Support works. This
25  *      removes the FS_32BIT compile-time directive; define
26  *      _FILE_OFFSET_BITS=64 and _LARGEFILE_SOURCE if you used to be
27  *      using FS_32BIT. This will allow you to use files >2GB instead of
28  *      having to use the -m option. Wouter Verhelst <wouter@debian.org>
29  */
30
31 #define VERSION "2.3"
32 #define GIGA (1*1024*1024*1024)
33
34 #include <sys/types.h>
35 #include <sys/socket.h>
36 #include <sys/stat.h>
37 #include <sys/wait.h>           /* wait */
38 #include <signal.h>             /* sigaction */
39 #include <netinet/tcp.h>
40 #include <netinet/in.h>         /* sockaddr_in, htons, in_addr */
41 #include <netdb.h>              /* hostent, gethostby*, getservby* */
42 #include <syslog.h>
43 #include <unistd.h>
44 #include <stdio.h>
45 #include <stdlib.h>
46 #include <string.h>
47 #include <fcntl.h>
48 #include <arpa/inet.h>
49 #include <strings.h>
50
51 //#define _IO(a,b)
52 // #define ISSERVER
53 #define MY_NAME "nbd_server"
54
55 /* Authorization file should contain lines with IP addresses of 
56    clients authorized to use the server. If it does not exist,
57    access is permitted. */
58 #define AUTH_FILE "nbd_server.allow"
59
60 #include "cliserv.h"
61 //#undef _IO
62 /* Deep magic: ioctl.h defines _IO macro (at least on linux) */
63
64
65 /* Debugging macros, now nothing goes to syslog unless you say ISSERVER */
66 #ifdef ISSERVER
67 #define msg2(a,b) syslog(a,b)
68 #define msg3(a,b,c) syslog(a,b,c)
69 #define msg4(a,b,c,d) syslog(a,b,c,d)
70 #else
71 #define msg2(a,b) do { fprintf(stderr,b) ; fputs("\n",stderr) ; } while(0) 
72 #define msg3(a,b,c) do { fprintf(stderr,b,c); fputs("\n",stderr) ; } while(0) 
73 #define msg4(a,b,c,d) do { fprintf(stderr,b,c,d); fputs("\n",stderr) ; } while(0)
74 #endif
75
76
77 #include <sys/ioctl.h>
78 #include <sys/mount.h>          /* For BLKGETSIZE */
79
80 //#define DODBG
81 #ifdef DODBG
82 #define DEBUG( a ) printf( a )
83 #define DEBUG2( a,b ) printf( a,b )
84 #define DEBUG3( a,b,c ) printf( a,b,c )
85 #else
86 #define DEBUG( a )
87 #define DEBUG2( a,b ) 
88 #define DEBUG3( a,b,c ) 
89 #endif
90
91 void serveconnection(int net);
92 void set_peername(int net,char *clientname);
93
94 #define LINELEN 256 
95 char difffilename[256];
96 unsigned int timeout = 0;
97 int autoreadonly = 0;
98
99 int authorized_client(char *name)
100 /* 0 - authorization refused, 1 - OK 
101   authorization file contains one line per machine, no wildcards
102 */
103 { FILE *f ;
104    
105   char line[LINELEN] ; 
106
107   if ((f=fopen(AUTH_FILE,"r"))==NULL)
108     { msg4(LOG_INFO,"Can't open authorization file %s (%s).",
109            AUTH_FILE,strerror(errno)) ;
110       return 1 ; 
111     }
112   
113   while (fgets(line,LINELEN,f)!=NULL) {
114     if (strncmp(line,name,strlen(name))==0) { fclose(f)  ; return 1 ; }
115   }
116   fclose(f) ;
117   return 0 ;
118 }
119
120
121 inline void readit(int f, void *buf, int len)
122 {
123         int res;
124         while (len > 0) {
125                 DEBUG("*");
126                 if ((res = read(f, buf, len)) <= 0)
127                         err("Read failed: %m");
128                 len -= res;
129                 buf += res;
130         }
131 }
132
133 inline void writeit(int f, void *buf, int len)
134 {
135         int res;
136         while (len > 0) {
137                 DEBUG("+");
138                 if ((res = send(f, buf, len, 0)) <= 0)
139                         err("Send failed: %m");
140                 len -= res;
141                 buf += res;
142         }
143 }
144
145 /* This is starting to get ugly. If someone knows a better way to find
146  * the maximum value of a signed type *without* relying on overflow
147  * (doing so breaks on 64bit architectures), that would be nice.
148  */
149 #define OFFT_MAX (((((off_t)1)<<((sizeof(off_t)-1)*8))-1)<<7)+127
150 int port;                       /* Port I'm listening at */
151 char *exportname;               /* File I'm exporting */
152 off_t exportsize = OFFT_MAX;    /* ...and its length */
153 off_t hunksize = OFFT_MAX;
154 int flags = 0;
155 int export[1024];
156 int difffile=-1 ;
157 u32 difffilelen=0 ; /* number of pages in difffile */
158 u32 *difmap=NULL ;
159 char clientname[256] ;
160
161
162 #define DIFFPAGESIZE 4096 /* diff file uses those chunks */
163
164 #define F_READONLY 1
165 #define F_MULTIFILE 2 
166 #define F_COPYONWRITE 4
167
168 void cmdline(int argc, char *argv[])
169 {
170         int i;
171
172         if (argc < 3) {
173                 printf("This is nbd-server version " VERSION "\n");     
174                 printf("Usage: port file_to_export [size][kKmM] [-r] [-m] [-c] [-a timeout_sec]\n"
175                        "        -r read only\n"
176                        "        -m multiple file\n"
177                        "        -c copy on write\n"
178                        "        -a maximum idle seconds, terminates when idle time exceeded\n"
179                        "        if port is set to 0, stdin is used (for running from inetd)\n"
180                        "        if file_to_export contains '%%s', it is substituted with IP\n"
181                        "                address of machine trying to connect\n" );
182                 exit(0);
183         }
184         port = atoi(argv[1]);
185         for (i = 3; i < argc; i++) {
186                 if (*argv[i] == '-') {
187                         switch (argv[i][1]) {
188                         case 'r':
189                                 flags |= F_READONLY;
190                                 break;
191                         case 'm':
192                                 flags |= F_MULTIFILE;
193                                 hunksize = 1*GIGA;
194                                 break;
195                         case 'c': flags |=F_COPYONWRITE;
196                                 break;
197                         case 'a': 
198                                 if (i+1<argc) {
199                                         timeout = atoi(argv[i+1]);
200                                         i++;
201                                 } else {
202                                         fprintf(stderr, "timeout requires argument\n");
203                                         exit(1);
204                                 }
205                         }
206                 } else {
207                         off_t es;
208                         int last = strlen(argv[i])-1;
209                         char suffix = argv[i][last];
210                         if (suffix == 'k' || suffix == 'K' ||
211                             suffix == 'm' || suffix == 'M')
212                                 argv[i][last] = '\0';
213                         es = (off_t)atol(argv[i]);
214                         switch (suffix) {
215                                 case 'm':
216                                 case 'M':  es <<= 10;
217                                 case 'k':
218                                 case 'K':  es <<= 10;
219                                 default :  break;
220                         }
221                         exportsize = es;
222                 }
223         }
224
225         exportname = argv[2];
226 }
227
228 void sigchld_handler(int s)
229 {
230         while(wait(NULL) > 0);
231 }
232
233 void connectme(int port)
234 {
235         struct sockaddr_in addrin;
236         struct sigaction sa;
237         int addrinlen = sizeof(addrin);
238         int net, sock, newpid;
239 #ifndef sun
240         int yes=1;
241 #else
242         char yes='1';
243 #endif
244
245         if ((sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) < 0)
246                 err("socket: %m");
247
248         /* lose the pesky "Address already in use" error message */
249         if (setsockopt(sock,SOL_SOCKET,SO_REUSEADDR,&yes,sizeof(int)) == -1) {
250                 err("setsockopt");
251         }
252
253         DEBUG("Waiting for connections... bind, ");
254         addrin.sin_family = AF_INET;
255         addrin.sin_port = htons(port);
256         addrin.sin_addr.s_addr = 0;
257         if (bind(sock, (struct sockaddr *) &addrin, addrinlen) < 0)
258                 err("bind: %m");
259         DEBUG("listen, ");
260         if (listen(sock, 1) < 0)
261                 err("listen: %m");
262         DEBUG("accept, ");
263         sa.sa_handler = sigchld_handler;
264         sigemptyset(&sa.sa_mask);
265         sa.sa_flags = SA_RESTART;
266         if(sigaction(SIGCHLD, &sa, NULL) == -1)
267                 err("sigaction: %m");
268         for(;;) { /* infinite loop */
269           if ((net = accept(sock, (struct sockaddr *) &addrin, &addrinlen)) < 0)
270             err("accept: %m");
271
272           set_peername(net,clientname) ;
273           if (!authorized_client(clientname)) {
274             msg2(LOG_INFO,"Unauthorized client") ;
275             close(net) ;
276             continue ;
277           }
278           msg2(LOG_INFO,"Authorized client") ;
279 #ifndef NOFORK
280           if ((newpid=fork())<0) {
281             msg3(LOG_INFO,"Could not fork (%s)",strerror(errno)) ;
282             close(net) ;
283             continue ;
284           }
285           if (newpid>0) { /* parent */
286             close(net) ; continue ; }
287           /* child */
288           close(sock) ;
289 #endif // NOFORK
290           msg2(LOG_INFO,"Starting to serve") ;
291           serveconnection(net) ;        
292         }
293 }
294
295 #define SEND writeit( net, &reply, sizeof( reply ));
296 #define ERROR { reply.error = htonl(-1); SEND; reply.error = 0; lastpoint = -1; }
297
298 off_t lastpoint = (off_t)-1;
299
300 void maybeseek(int handle, off_t a)
301 {
302 if (a > exportsize)
303         err("Can not happen\n");
304 if (lastpoint != a) {
305         if (lseek(handle, a, SEEK_SET) < 0)
306                 err("Can not seek locally!\n");
307         lastpoint = a;
308 } else {
309         DEBUG("@");
310 }
311 }
312
313 void myseek(int handle,off_t a)
314 {
315         if (lseek(handle, a, SEEK_SET) < 0)
316                 err("Can not seek locally!\n");
317 }
318
319 char pagebuf[DIFFPAGESIZE];
320
321 int rawexpread(off_t a, char *buf, int len)
322 {
323   maybeseek(export[a/hunksize], a%hunksize);
324   return (read(export[a/hunksize], buf, len) != len);
325 }
326
327 int expread(off_t a, char *buf, int len)
328 {
329         int rdlen, offset;
330         off_t mapcnt, mapl, maph, pagestart;
331  
332         if (!(flags & F_COPYONWRITE))
333                 return rawexpread(a, buf, len);
334         DEBUG3("Asked to read %d bytes at %Lu.\n", len, (unsigned long long)a);
335
336         mapl=a/DIFFPAGESIZE; maph=(a+len-1)/DIFFPAGESIZE;
337
338         for (mapcnt=mapl;mapcnt<=maph;mapcnt++) {
339                 pagestart=mapcnt*DIFFPAGESIZE;
340                 offset=a-pagestart;
341                 rdlen=(len<DIFFPAGESIZE-offset) ? len : DIFFPAGESIZE-offset;
342                 if (difmap[mapcnt]!=(u32)(-1)) { /* the block is already there */
343                         DEBUG3("Page %Lu is at %lu\n", (unsigned long long)mapcnt,
344                                (unsigned long)difmap[mapcnt]);
345                         myseek(difffile, difmap[mapcnt]*DIFFPAGESIZE+offset);
346                         if (read(difffile, buf, rdlen) != rdlen) return -1;
347                 } else { /* the block is not there */
348                         DEBUG2("Page %Lu is not here, we read the original one\n",
349                                (unsigned long long)mapcnt);
350                         return rawexpread(a, buf, rdlen);
351                 }
352                 len-=rdlen; a+=rdlen; buf+=rdlen;
353         }
354         return 0;
355 }
356
357 int rawexpwrite(off_t a, char *buf, int len)
358 {
359         maybeseek(export[a/hunksize], a%hunksize);
360         return (write(export[a/hunksize], buf, len) != len);
361 }
362
363
364 int expwrite(off_t a, char *buf, int len)
365 {
366         u32 mapcnt,mapl,maph ; int wrlen,rdlen ; 
367         off_t pagestart ; int offset ;
368
369         if (!(flags & F_COPYONWRITE))
370                 return(rawexpwrite(a,buf,len)); 
371         DEBUG3("Asked to write %d bytes at %Lu.\n", len, (unsigned long long)a);
372
373         mapl=a/DIFFPAGESIZE ; maph=(a+len-1)/DIFFPAGESIZE ;
374
375         for (mapcnt=mapl;mapcnt<=maph;mapcnt++) {
376                 pagestart=mapcnt*DIFFPAGESIZE ;
377                 offset=a-pagestart ;
378                 wrlen=(len<DIFFPAGESIZE-offset) ? len : DIFFPAGESIZE-offset ;
379
380                 if (difmap[mapcnt]!=(u32)(-1)) { /* the block is already there */
381                         DEBUG3("Page %Lu is at %lu\n", (unsigned long long)mapcnt,
382                                (unsigned long)difmap[mapcnt]) ;
383                         myseek(difffile,difmap[mapcnt]*DIFFPAGESIZE+offset) ;
384                         if (write(difffile, buf, wrlen) != wrlen) return -1 ;
385                 } else { /* the block is not there */
386                         myseek(difffile,difffilelen*DIFFPAGESIZE) ;
387                         difmap[mapcnt]=difffilelen++ ;
388                         DEBUG3("Page %Lu is not here, we put it at %lu\n",
389                                (unsigned long long)mapcnt,
390                                (unsigned long)difmap[mapcnt]);
391                         rdlen=DIFFPAGESIZE ;
392                         if (rdlen+pagestart%hunksize>hunksize) 
393                                 rdlen=hunksize-(pagestart%hunksize) ;
394                         if (rawexpread(pagestart,pagebuf,rdlen)) return -1 ;
395                         memcpy(pagebuf+offset,buf,wrlen) ;
396                         if (write(difffile,pagebuf,DIFFPAGESIZE)!=DIFFPAGESIZE) return -1 ;
397                 }                                                   
398                 len-=wrlen ; a+=wrlen ; buf+=wrlen ;
399         }
400         return 0;
401 }
402
403 int mainloop(int net)
404 {
405         struct nbd_request request;
406         struct nbd_reply reply;
407         char zeros[300];
408         int i = 0;
409         off_t size_host;
410
411         memset(zeros, 0, 290);
412         if (write(net, INIT_PASSWD, 8) < 0)
413                 err("Negotiation failed: %m");
414         cliserv_magic = htonll(cliserv_magic);
415         if (write(net, &cliserv_magic, sizeof(cliserv_magic)) < 0)
416                 err("Negotiation failed: %m");
417         size_host = htonll(exportsize);
418         if (write(net, &size_host, 8) < 0)
419                 err("Negotiation failed: %m");
420         if (write(net, zeros, 128) < 0)
421                 err("Negotiation failed: %m");
422
423         DEBUG("Entering request loop!\n");
424         reply.magic = htonl(NBD_REPLY_MAGIC);
425         reply.error = 0;
426         while (1) {
427 #define BUFSIZE (1024*1024)
428                 char buf[BUFSIZE];
429                 int len;
430
431 #ifdef DODBG
432                 i++;
433                 printf("%d: ", i);
434 #endif
435
436                 if (timeout) 
437                         alarm(timeout);
438                 readit(net, &request, sizeof(request));
439                 request.from = ntohll(request.from);
440                 request.type = ntohl(request.type);
441
442                 if (request.type==2) { /* Disconnect request */
443                   if (difmap) free(difmap) ;
444                   if (difffile>=0) { 
445                      close(difffile) ; unlink(difffilename) ; }
446                   err("Disconnect request received.") ;
447                 }
448
449                 len = ntohl(request.len);
450
451                 if (request.magic != htonl(NBD_REQUEST_MAGIC))
452                         err("Not enough magic.");
453                 if (len > BUFSIZE)
454                         err("Request too big!");
455 #ifdef DODBG
456                 printf("%s from %Lu (%Lu) len %d, ", request.type ? "WRITE" :
457                                 "READ", (unsigned long long)request.from,
458                                 (unsigned long long)request.from / 512, len);
459 #endif
460                 memcpy(reply.handle, request.handle, sizeof(reply.handle));
461                 if ((request.from + len) > (OFFT_MAX)) {
462                   DEBUG("[Number too large!]");
463                   ERROR;
464                   continue;
465                 }
466                 if ((((off_t)request.from + len) > exportsize) ||
467                     ((flags & F_READONLY) && request.type)) {
468                         DEBUG("[RANGE!]");
469                         ERROR;
470                         continue;
471                 }
472                 if (request.type==1) {  /* WRITE */
473                         DEBUG("wr: net->buf, ");
474                         readit(net, buf, len);
475                         DEBUG("buf->exp, ");
476                         if ((autoreadonly == 1) || expwrite(request.from, buf, len)) {
477                                 DEBUG("Write failed: %m" );
478                                 ERROR;
479                                 continue;
480                         }
481                         lastpoint += len;
482                         SEND;
483                         DEBUG("OK!\n");
484                         continue;
485                 }
486                 /* READ */
487
488                 DEBUG("exp->buf, ");
489                 if (expread(request.from, buf + sizeof(struct nbd_reply), len)) {
490                         lastpoint = -1;
491                         DEBUG("Read failed: %m");
492                         ERROR;
493                         continue;
494                 }
495                 lastpoint += len;
496
497                 DEBUG("buf->net, ");
498                 memcpy(buf, &reply, sizeof(struct nbd_reply));
499                 writeit(net, buf, len + sizeof(struct nbd_reply));
500                 DEBUG("OK!\n");
501         }
502 }
503
504 char exportname2[1024];
505
506 void set_peername(int net,char *clientname)
507 {
508         struct sockaddr_in addrin;
509         int addrinlen = sizeof( addrin );
510         char *peername ;
511
512         if (getpeername( net, (struct sockaddr *) &addrin, &addrinlen ) < 0)
513                 err("getsockname failed: %m");
514         peername = inet_ntoa(addrin.sin_addr);
515         sprintf(exportname2, exportname, peername);
516
517         msg4(LOG_INFO, "connect from %s, assigned file is %s", peername, exportname2);
518         strncpy(clientname,peername,255) ;
519 }
520
521 off_t size_autodetect(int export)
522 {
523         off_t es;
524         u32 es32;
525         struct stat stat_buf;
526         int error;
527
528         DEBUG("looking for export size with lseek SEEK_END\n");
529         es = lseek(export, (off_t)0, SEEK_END);
530         if (es > ((off_t)0)) {
531                 return es;
532         } else {
533                 DEBUG2("lseek failed: %d", errno==EBADF?1:(errno==ESPIPE?2:(errno==EINVAL?3:4)));
534         }
535
536         DEBUG("looking for export size with fstat\n");
537         stat_buf.st_size = 0;
538         error = fstat(export, &stat_buf);
539         if (!error && stat_buf.st_size > 0) {
540                 return (off_t)stat_buf.st_size;
541         } else {
542                 err("fstat failed: %m");
543         }
544
545 #ifdef BLKGETSIZE
546         DEBUG("looking for export size with ioctl BLKGETSIZE\n");
547         if (!ioctl(export, BLKGETSIZE, &es32) && es32) {
548                 es = (off_t)es32 * (off_t)512;
549                 return es;
550         }
551 #endif
552         err("Could not find size of exported block device: %m");
553         return (off_t)-1;
554 }
555
556 int main(int argc, char *argv[])
557 {
558         int net;
559         off_t i;
560
561         if (sizeof( struct nbd_request )!=28) {
562                 fprintf(stderr,"Bad size of structure. Alignment problems?\n");
563                 exit(-1) ;
564         }
565         logging();
566         cmdline(argc, argv);
567         
568         if (!port) return 1 ;
569         connectme(port); /* serve infinitely */
570         return 0 ;
571 }
572
573
574 void serveconnection(int net) 
575 {   
576   off_t i ;
577
578   for (i=0; i<exportsize; i+=hunksize) {
579     char exportname3[1024];
580     
581     sprintf(exportname3, exportname2, i/hunksize);
582     printf( "Opening %s\n", exportname3 );
583     if ((export[i/hunksize] = open(exportname3, (flags & F_READONLY) ? O_RDONLY : O_RDWR)) == -1) {
584                 /* Read WRITE ACCESS was requested by media is only read only */
585                 autoreadonly = 1;
586                 flags |= F_READONLY;
587                 if ((export[i/hunksize] = open(exportname3, O_RDONLY)) == -1) 
588                         err("Could not open exported file: %m");
589         }
590     }
591
592     if (exportsize == (off_t)OFFT_MAX) {
593         exportsize = size_autodetect(export[0]);
594     }
595     if (exportsize > (off_t)OFFT_MAX) {
596         err("Size of exported file is too big\n");
597     }
598     else
599         msg3(LOG_INFO, "size of exported file/device is %Lu",
600                         (unsigned long long)exportsize);
601
602     if (flags & F_COPYONWRITE) {
603       sprintf(difffilename,"%s-%s-%d.diff",exportname2,clientname,
604               (int)getpid()) ;
605       msg3(LOG_INFO,"About to create map and diff file %s",difffilename) ;
606       difffile=open(difffilename,O_RDWR | O_CREAT | O_TRUNC,0600) ;
607       if (difffile<0) err("Could not create diff file (%m)") ;
608       if ((difmap=calloc(exportsize/DIFFPAGESIZE,sizeof(u32)))==NULL)
609           err("Could not allocate memory") ;
610       for (i=0;i<exportsize/DIFFPAGESIZE;i++) difmap[i]=(u32)-1 ;         
611     }
612     
613     setmysockopt(net);
614       
615     mainloop(net);
616 }