LDD3源码分析之块设备驱动程序

作者:刘昊昱 

博客:http://blog.csdn.net/liuhaoyutz

编译环境:Ubuntu 10.10

内核版本:2.6.32-38-generic-pae

LDD3源码路径:examples/sbull

 

一、块设备驱动基本操作

我们从init函数开始分析,sbull的init函数内容如下:

403static int __init sbull_init(void)
404{
405   int i;
406   /*
407    * Get registered.
408    */
409   sbull_major = register_blkdev(sbull_major, "sbull");
410   if (sbull_major <= 0) {
411       printk(KERN_WARNING "sbull: unable to get major number\n");
412       return -EBUSY;
413   }
414   /*
415    * Allocate the device array, and initialize each one.
416    */
417   Devices = kmalloc(ndevices*sizeof (struct sbull_dev), GFP_KERNEL);
418   if (Devices == NULL)
419       goto out_unregister;
420   for (i = 0; i < ndevices; i++)
421       setup_device(Devices + i, i);
422
423   return 0;
424
425 out_unregister:
426   unregister_blkdev(sbull_major, "sbd");
427   return -ENOMEM;
428}


409行,调用register_blkdev(sbull_major,"sbull")函数,向kernel注册该驱动程序对应的block设备,register_blkdev函数的第一个参数指定设备对应的主设备号,如果第一个参数传递的值为0,kerenl将自动分配一个主设备号并通过register_blkdev函数的返回值返回。sbull_major的定义如下:

28static int sbull_major = 0;
29module_param(sbull_major, int, 0);


可见,sbull_major的默认值为0,用户可以通过参数指定其他值。

register_blkdev函数的第二个参数指定设备名,将出现在/proc/devices/目录下。

417行,调用kmalloc为设备分配内存空间。sbull使用struct sbull_dev代表一个设备,共有ndevices个设备。struct sbull_dev定义如下:

 66/*
 67 *The internal representation of our device.
 68*/
 69struct sbull_dev {
 70       int size;                       /* Device size in sectors */
 71       u8 *data;                       /*The data array */
 72       short users;                    /*How many users */
 73       short media_change;             /*Flag a media change? */
 74       spinlock_t lock;                /*For mutual exclusion */
 75       struct request_queue *queue;    /*The device request queue */
 76       struct gendisk *gd;             /*The gendisk structure */
 77       struct timer_list timer;        /*For simulated media changes */
 78};


ndevices变量定义如下:

34static int ndevices = 4;
35module_param(ndevices, int, 0);


可见,ndevices默认为4,用户可以通过参数指定其他值。

用kmalloc分配的内存空间保存在Devices变量中,它也是一个struct sbull_dev变量:

80static struct sbull_dev *Devices = NULL;

420-421行,循环调用setup_device函数,对每个sbull设备进行初始化。setup_device函数定义如下:

324/*
325 * Set up our internal device.
326 */
327static void setup_device(structsbull_dev *dev, int which)
328{
329   /*
330    * Get some memory.
331    */
332   memset (dev, 0, sizeof (struct sbull_dev));
333   dev->size = nsectors*hardsect_size;
334   dev->data = vmalloc(dev->size);
335   if (dev->data == NULL) {
336       printk (KERN_NOTICE "vmalloc failure.\n");
337       return;
338   }
339   spin_lock_init(&dev->lock);
340
341   /*
342    * The timer which "invalidates" the device.
343    */
344   init_timer(&dev->timer);
345   dev->timer.data = (unsigned long) dev;
346   dev->timer.function = sbull_invalidate;
347
348   /*
349    * The I/O queue, depending on whether we are using our own
350    * make_request function or not.
351    */
352   switch (request_mode) {
353       case RM_NOQUEUE:
354       dev->queue = blk_alloc_queue(GFP_KERNEL);
355       if (dev->queue == NULL)
356            goto out_vfree;
357       blk_queue_make_request(dev->queue, sbull_make_request);
358       break;
359
360       case RM_FULL:
361       dev->queue = blk_init_queue(sbull_full_request, &dev->lock);
362       if (dev->queue == NULL)
363            goto out_vfree;
364       break;
365
366       default:
367       printk(KERN_NOTICE "Bad request mode %d, using simple\n",request_mode);
368            /* fall into.. */
369
370       case RM_SIMPLE:
371       dev->queue = blk_init_queue(sbull_request, &dev->lock);
372       if (dev->queue == NULL)
373            goto out_vfree;
374       break;
375   }
376   blk_queue_hardsect_size(dev->queue, hardsect_size);
377   dev->queue->queuedata = dev;
378   /*
379    * And the gendisk structure.
380    */
381   dev->gd = alloc_disk(SBULL_MINORS);
382   if (! dev->gd) {
383       printk (KERN_NOTICE "alloc_disk failure\n");
384       goto out_vfree;
385   }
386   dev->gd->major = sbull_major;
387   dev->gd->first_minor = which*SBULL_MINORS;
388   dev->gd->fops = &sbull_ops;
389   dev->gd->queue = dev->queue;
390   dev->gd->private_data = dev;
391   snprintf (dev->gd->disk_name, 32, "sbull%c", which +‘a‘);
392   set_capacity(dev->gd, nsectors*(hardsect_size/KERNEL_SECTOR_SIZE));
393   add_disk(dev->gd);
394   return;
395
396 out_vfree:
397   if (dev->data)
398       vfree(dev->data);
399}


332行,将sbull_dev空间清零。

333行,dev->size是设备以sector为单位的大小,nsectors是设备有多少个sector,hardsect是设备对应的每个sector的大小。nsectors和hardsect_size变量定义如下:

30static int hardsect_size = 512;

31module_param(hardsect_size, int, 0);

32static int nsectors = 1024; /* How bigthe drive is */

33module_param(nsectors, int, 0);

可见,nsectors默认值为1024,hardsect_size默认值为512,它们可以通过参数指定其他值。

334行,为dev->data分配dev->size的内存空间。

339行,初始化dev->lock,它是一个spin_lock。

341-346行,初始化定时器dev->timer,定时器函数为sbull_invalidate。sbull_dev被假设是可插拨设备,当最后一个用户关闭设备时(即在sbull_release函数中),dev->timer被设置为30秒后触发定时器中断,如果没有用户在30秒内打开设备,设备上的内容将被清空,并将dev->media_change标志位设置为1,通知内核设备已经被拨出。sbull_invalidate函数定义如下:

261/*
262 * The "invalidate" function runsout of the device timer; it sets
263 * a flag to simulate the removal of themedia.
264 */
265void sbull_invalidate(unsigned longldev)
266{
267   struct sbull_dev *dev = (struct sbull_dev *) ldev;
268
269   spin_lock(&dev->lock);
270   if (dev->users || !dev->data)
271       printk (KERN_WARNING "sbull: timer sanity check failed\n");
272   else
273       dev->media_change = 1;
274   spin_unlock(&dev->lock);
275}


273行,dev->media_change设置为1,表示设备被拨出。

回到setup_device函数:

348-375行,初始化请求队列,这里分为三种情况,一是使用自己的make_request,二是完整的request,三是简单的request。

376行,调用blk_queue_hardsect_size函数通知kernel sbull_dev支持的sector大小。

381行,调用alloc_disk函数创建一个struct gendisk对象,赋值给dev->gd。struct gendisk代表一个单独的磁盘设备,实际上,一个磁盘分区也是用structgendisk表示,但是驱动开发者不用关心这些细节。alloc_disk函数用于创建并初始化一个gendisk对象,其参数表示该磁盘对象使用的次设备号的个数。

386-390行,对dev->gd的各个成员进行初始化。我们需要注意的是dev->gd->fops被赋值为sbull_ops。struct gendisk的fops成员变量是struct block_device_operations指针变量,它是对该块设备进行操作的函数集合。sbull_ops定义如下:

311/*
312 * The device operations structure.
313 */
314static struct block_device_operationssbull_ops = {
315   .owner           = THIS_MODULE,
316   .open            = sbull_open,
317   .release     = sbull_release,
318   .media_changed   =sbull_media_changed,
319   .revalidate_disk = sbull_revalidate,
320   .ioctl           = sbull_ioctl
321};


我们后面会依次分析sbull_ops的成员函数。

392行,调用set_capacity函数,记录设备大小,以sector为单位。

393行,调用add_disk(dev->gd)向kernel注册dev->gd。该函数执行后,设备就“活”了,其操作函数随时可能被调用。

至此,setup_device函数我们就分析完了。同时,sbull_init函数也就分析完了。

前面我们提到过struct gendisk代表一个磁盘设备,而gendisk.fops成员则是对该磁盘进行操作的函数集合。在sbull驱动中,gendisk.fops被设置为sbull_ops,下面我们就来分析一下sbull_ops中的成员函数。

sbull_ops.open被设置为sbull_open,当sbull块设备被打开时,该函数被调用,其定义如下:                                                                                                                                                                                                                                                  

206static int sbull_open(struct inode*inode, struct file *filp)
207{
208   struct sbull_dev *dev = inode->i_bdev->bd_disk->private_data;
209
210   del_timer_sync(&dev->timer);
211   filp->private_data = dev;
212   spin_lock(&dev->lock);
213   if (! dev->users)
214       check_disk_change(inode->i_bdev);
215   dev->users++;
216   spin_unlock(&dev->lock);
217   return 0;
218}


为了模拟可插拨设备,sbull驱动程序必须知道什么时候最后一个用户关闭设备。为此,sbull驱动程序需要维护一个用户计数,在open和release函数中,对这个用户计数进行增减操作。

块设备的open操作与字符设备的open操作看起来非常像,它们都是以相应的inode和file结构体指针为参数,当一个inode指向一个块设备时,inode.i_bdev->bd_disk指向对应的gendisk结构体。

208行,通过gendisk.private_data得到sbull_dev指针。

210行,删除定时器。

213-214行,如果dev->users为0,则调用kernel提供的函数check_disk_change,检查设备状态是否发生变化。

215行,用户数加1。

sbull_ops.release被设置为sbull_release,该函数定义如下:

220static int sbull_release(struct inode*inode, struct file *filp)
221{
222   struct sbull_dev *dev = inode->i_bdev->bd_disk->private_data;
223
224   spin_lock(&dev->lock);
225   dev->users--;
226
227   if (!dev->users) {
228       dev->timer.expires = jiffies + INVALIDATE_DELAY;
229       add_timer(&dev->timer);
230   }
231   spin_unlock(&dev->lock);
232
233   return 0;
234}


sbull_release函数与sbull_open函数的作用正好相反,当一个用户关闭sbull设备时,sbull_release函数被调用,它用于减少用户计数,如果用户计数为0,则启动定时器。

225行,用户计数减1。

227-230行,如果用户计数为0,则启动去时器,并设置定时器在INVALIDATE_DELAY即30秒钟后触发。

struct block_device_operations的成员函数media_changed和revalidate_disk是为可插拨设备准备的,如果我们的驱动程序对应的设备是不可插拨的设备,则可以忽略这两个函数。因为我们的sbull设备要模拟一个可插拨设备,所以我们实现了这两个函数:sbull_ops.media_changed对应sbull_media_changed函数,sbull_ops.revalidate_disk对应sbull_revalidate函数。

先来看sbull_media_changed,该函数定义如下:

236/*
237 * Look for a (simulated) media change.
238 */
239int sbull_media_changed(struct gendisk*gd)
240{
241   struct sbull_dev *dev = gd->private_data;
242
243   return dev->media_change;
244}


media_changed函数用来探测可插拨设备是否已经发生变化,如果是,该函数返回一个非0值,如果没有变化,返回0。sbull_media_changed函数返回dev->media_change标志。前面我们分析了定时器处理函数sbull_invalidate,在该函数中,如果sbull设备被最后一个用户关闭30秒钟后没有被再打开,则将dev->media_change设置为1,表示设备被拨出。

sbull_revalidate函数定义如下:

246/*
247 * Revalidate.  WE DO NOT TAKE THE LOCK HERE, for fear ofdeadlocking
248 * with open.  That needs to be reevaluated.
249 */
250int sbull_revalidate(struct gendisk *gd)
251{
252   struct sbull_dev *dev = gd->private_data;
253
254   if (dev->media_change) {
255       dev->media_change = 0;
256       memset (dev->data, 0, dev->size);
257   }
258   return 0;
259}


revalidate函数在可插拨设备发生变化时会被kernel调用,它的作用是用来为驱动新插入的设备(如果有的话)做任何需要的准备工作。调用完revalidate函数后,kernel会尝试读取设备分区表,并重新启动设备。

在sbull_revalidate函数中,我们只是将dev->media_change设置为0,并清空dev->data的内容,以此来模拟插入了一个空白磁盘。

下面我们来看sbull_ops. sbull_ioctl函数,该函数定义如下:

277/*
278 * The ioctl() implementation
279 */
280
281int sbull_ioctl (struct inode *inode,struct file *filp,
282                 unsigned int cmd, unsignedlong arg)
283{
284   long size;
285   struct hd_geometry geo;
286   struct sbull_dev *dev = filp->private_data;
287
288   switch(cmd) {
289       case HDIO_GETGEO:
290            /*
291        * Get geometry: since we are a virtual device, we have to make
292        * up something plausible.  So weclaim 16 sectors, four heads,
293        * and calculate the corresponding number of cylinders.  We set the
294        * start of data at sector four.
295        */
296       size = dev->size*(hardsect_size/KERNEL_SECTOR_SIZE);
297       geo.cylinders = (size & ~0x3f) >> 6;
298       geo.heads = 4;
299       geo.sectors = 16;
300       geo.start = 4;
301       if (copy_to_user((void __user *) arg, &geo, sizeof(geo)))
302            return -EFAULT;
303       return 0;
304   }
305
306   return -ENOTTY; /* unknowncommand */
307}


块设备驱动程序可以提供ioctl方法执行对设备的控制,在ioctl命令到达块设备驱动程序之前,kernel的块设备子系统可能已经处理了大部分ioctl命令。所以,块设备驱动程序不需要实现太多的ioctl命令处理。

sbull_ioctl只实现了一个ioctl命令处理,用于返回设备geometry。

 

二、request处理

块设备驱动的性能在很大程度上能决定整个系统的性能,因此,Linux kernel在实现块设备子系统时,始终考虑到性能的因素,它尽最大可能让块设备驱动程序不必关心操作块设备的细节,这使得更快速的I/O操作成为可能,同时,块设备子系统也不必为块设备驱动程序导出大量复杂的API接口。

对一个块设备驱动程序来说,最重要函数就是它的request函数,该函数是执行“真正的”工作的地方,或者说至少是“真正的”工作开始执行的地方。块设备驱动的request函数具有如下格式:

void request(request_queue_t *queue);

当kernel认为需要驱动程序执行read、write或其它针对块设备的操作时,request函数就会被调用。request函数不必完成所有的请求操作,而是启动对请求操作的处理,保证该请求最终被驱动程序完成。

每个设备都有一个请求队列(request queue),request函数在request queue被创建的时候就和该request queue关联在一起。例如,在sbull驱动中,创建request queue的语句如下(在setup_device函数中):

371       dev->queue = blk_init_queue(sbull_request, &dev->lock);


blk_init_queue函数用于创建和初始化requestqueue,sbull_request就是对应的request函数。dev->lock是调用request函数前必须获得的自旋锁。

 

下面我们来看sbull驱动程序是怎么处理request的。

在setup_device函数中,sbull驱动程序提供了几种不同的处理request的函数,最简单的也是默认的request处理函数是sbull_request函数。该函数定义如下:

101/*
102 * The simple form of the requestfunction.
103 */
104static voidsbull_request(request_queue_t *q)
105{
106   struct request *req;
107
108   while ((req = elv_next_request(q)) != NULL) {
109       struct sbull_dev *dev = req->rq_disk->private_data;
110       if (! blk_fs_request(req)) {
111            printk (KERN_NOTICE "Skipnon-fs request\n");
112            end_request(req, 0);
113            continue;
114       }
115   //      printk (KERN_NOTICE"Req dev %d dir %ld sec %ld, nr %d f %lx\n",
116   //              dev - Devices, rq_data_dir(req),
117   //              req->sector,req->current_nr_sectors,
118   //              req->flags);
119       sbull_transfer(dev, req->sector, req->current_nr_sectors,
120                req->buffer,rq_data_dir(req));
121       end_request(req, 1);
122   }
123}


106行,定义一个struct request指针变量req,struct request结构体我们后面会详细分析,这里我们只需要知道它代表一个block I/O request。

108行,调用elv_next_request函数从request队列中取得第一个未处理的request。注意elv_next_request函数并没有将该request从request队列中删除,如果没有对它执行相应操作,两次调用elv_next_request函数将返回同一个request。

110-114行,调用blk_fs_request函数判断当前request是不是执行真正读写操作的request,如果不是,调用end_request函数表示完成对该request的处理,注意这112行调用end_request时,第二个参数传递的是0,表示我们没有成功完成该request。

119行,如果request是执行读写操作的request,调用sbull_transfer函数执行读写操作。后面我们再分析sbull_transfer函数。

121行,完成request要求的读写操作后,调用end_request,第二个参数传递1,表示该request成功完成。

sbull_transfer函数定义如下:

 82/*
 83 *Handle an I/O request.
 84*/
 85static void sbull_transfer(struct sbull_dev*dev, unsigned long sector,
 86       unsigned long nsect, char *buffer, int write)
 87{
 88   unsigned long offset = sector*KERNEL_SECTOR_SIZE;
 89   unsigned long nbytes = nsect*KERNEL_SECTOR_SIZE;
 90
 91    if((offset + nbytes) > dev->size) {
 92       printk (KERN_NOTICE "Beyond-end write (%ld %ld)\n", offset,nbytes);
 93       return;
 94    }
 95    if(write)
 96       memcpy(dev->data + offset, buffer, nbytes);
 97   else
 98       memcpy(buffer, dev->data + offset, nbytes);
 99}


该函数的第一个参数代表sbull_dev设备,第二个参数指定读写操作从哪个sector开始,第三个参数指定读写操作涉及到多少个sector,第四个参数指定读/写缓冲区,第五个参数指定是执行读还是写操作。

88行,计算读/写操作的起始位置。

89行,计算读/写操作的字节数。

91-94行,判断读/写操作是否越界。

95-98行,调用memcpy函数执行读/写操作。

 

setup_device函数的第361行:

361       dev->queue = blk_init_queue(sbull_full_request, &dev->lock);


可以看出,完整版本的request处理函数是sbull_full_request,该函数定义如下:

163/*
164 * Smarter request function that"handles clustering".
165 */
166static voidsbull_full_request(request_queue_t *q)
167{
168   struct request *req;
169   int sectors_xferred;
170   struct sbull_dev *dev = q->queuedata;
171
172   while ((req = elv_next_request(q)) != NULL) {
173       if (! blk_fs_request(req)) {
174            printk (KERN_NOTICE "Skipnon-fs request\n");
175            end_request(req, 0);
176            continue;
177       }
178       sectors_xferred = sbull_xfer_request(dev, req);
179       if (! end_that_request_first(req, 1, sectors_xferred)) {
180            blkdev_dequeue_request(req);
181           end_that_request_last(req);
182       }
183   }
184}


172行,调用elv_next_request函数从request队列中取得第一个未处理的request。

173-177行,调用blk_fs_request函数判断当前request是不是执行真正读写操作的request,如果不是,调用end_request函数表示完成对该request的处理,注意175行调用end_request时,第二个参数传递的是0,表示我们没有成功完成该request。

178行,调用sbull_xfer_request(dev,req)函数,该函数处理整个request,执行真正的I/O操作,该函数定义如下:

146/*
147 * Transfer a full request.
148 */
149static int sbull_xfer_request(structsbull_dev *dev, struct request *req)
150{
151   struct bio *bio;
152   int nsect = 0;
153
154   rq_for_each_bio(bio, req) {
155       sbull_xfer_bio(dev, bio);
156       nsect += bio->bi_size/KERNEL_SECTOR_SIZE;
157   }
158   return nsect;
159}


154-157行,rq_for_each_bio是一个宏,用于遍历request包含的所有bio结构。对于每个bio结构,155行调用sbull_xfer_bio (dev,bio),该函数处理单个bio结构,其定义如下:

126/*
127 * Transfer a single BIO.
128 */
129static int sbull_xfer_bio(structsbull_dev *dev, struct bio *bio)
130{
131   int i;
132   struct bio_vec *bvec;
133   sector_t sector = bio->bi_sector;
134
135   /* Do each segment independently. */
136   bio_for_each_segment(bvec, bio, i) {
137       char *buffer =__bio_kmap_atomic(bio, i, KM_USER0);
138       sbull_transfer(dev, sector, bio_cur_sectors(bio),
139                buffer, bio_data_dir(bio) ==WRITE);
140       sector += bio_cur_sectors(bio);
141       __bio_kunmap_atomic(bio, KM_USER0);
142   }
143   return 0; /* Always "succeed" */
144}


136行,调用bio_for_each_segment宏,遍历bio的bi_io_vec数组的每个成员(即一个bio_vec结构)。bio_for_each_segment宏会将当前的bio_vce赋值给第一个参数bvec,将当前segment号赋值给第三个参数i。

137行,调用__bio_kmap_atomic将bio_vec数据的虚拟地址转换为物理地址,保存在buffer指针变量中。

138-139行,调用sbull_transfer函数,该函数我们在前面分析sbull_request函数时已经分析过。sbull_transfer函数定义如下:

 82/*
 83 *Handle an I/O request.
 84*/
 85static void sbull_transfer(struct sbull_dev*dev, unsigned long sector,
 86       unsigned long nsect, char *buffer, int write)
 87{
 88   unsigned long offset = sector*KERNEL_SECTOR_SIZE;
 89   unsigned long nbytes = nsect*KERNEL_SECTOR_SIZE;
 90
 91    if((offset + nbytes) > dev->size) {
 92       printk (KERN_NOTICE "Beyond-end write (%ld %ld)\n", offset,nbytes);
 93       return;
 94    }
 95    if(write)
 96       memcpy(dev->data + offset, buffer, nbytes);
 97   else
 98       memcpy(buffer, dev->data + offset, nbytes);
 99}


该函数的第一个参数代表sbull_dev设备,第二个参数指定读写操作从哪个sector开始,第三个参数指定读写操作涉及到多少个sector,第四个参数指定读/写缓冲区,第五个参数指定是执行读还是写操作。

88行,计算读/写操作的起始位置。

89行,计算读/写操作的字节数。

91-94行,判断读/写操作是否越界。

95-98行,调用memcpy函数执行读/写操作。

回到sbull_xfer_bio函数:

140行,更新sector值。

141行,取消地址映射。

至此,sbull_xfer_bio函数我们就分析完了。

回到sbull_xfer_request函数:

156行,更新nsect值,记录传输的sector数。

158行,返回传输的sector个数。

回到sbull_full_request函数:

179行,处理完request后,调用end_that_request_first函数通过block子系统该request处理完毕。end_that_request_first函数的返回值表明该request的所有sector都被传输完成与否,返回0表明该request所有的sector都被传输完成,request处理结束。

180行,如果request的所有sector都被传输完成,request处理结束,则调用blkdev_dequeue_request(req)函数将request从request队列中删除。

181行,调用end_that_request_last(req)函数,该函数通知等待该request结束的进程,并回收request结构。

LDD3源码分析之块设备驱动程序

上一篇:POJ 1177 Picture


下一篇:ubuntu下配置jdk开发环境