在網路上看到的教學文章,怪不錯的

就貼上了,

作者一樣不詳





====================================================================

作需要寫了我們公司一塊網卡的Linux驅動程式。經歷一個從無到有的過程,深感技術

交流的重要。Linux作為挑戰微軟壟斷的強有力武器,日益受到大家的喜愛。真希望她能

在中國迅速成長。把程式文檔貼出來,希望和大家探討Linux技術和應用,促進Linux在

中國的普及。

Linux作業系統網路驅動程式編寫

一.Linux系統設備驅動程式概述

1.1 Linux設備驅動程式分類

1.2 編寫驅動程式的一些基本概念

二.Linux系統網路設備驅動程式

2.1 網路驅動程式的架構

2.2 網路驅動程式的基本方法

2.3 網路驅動程式中用到的數據架構

2.4 常用的系統支持

三.編寫Linux網路驅動程式中可能遇到的問題

3.1 中斷共享

3.2 硬體發送忙時的處理

3.3 流量控制(flow control)

3.4 調試

四.進一步的閱讀

五.雜項

一.Linux系統設備驅動程式概述

1.1 Linux設備驅動程式分類

Linux設備驅動程式在Linux的內核源代碼中佔有很大的比例,源代碼的長度日益增加,

主要是驅動程式的增加。在Linux內核的不斷升級過程中,驅動程式的架構還是相對穩定

。在2.0.xx到2.2.xx的變動裡,驅動程式的編寫做了一些改變,但是從2.0.xx的驅動到

2.2.xx的移植只需做少量的工作。

Linux系統的設備分為字符設備(char device),塊設備(block device)和網路設備(net

work device)三種。字符設備是指存取時沒有緩存的設備。塊設備的讀寫都有緩存來支

持,並且塊設備必須能夠隨機存取(random access),字符設備則沒有這個要求。典型的

字符設備包括鼠標,鍵盤,串行口等。塊設備主要包括硬碟軟碟設備,CD-ROM等。一個

文件系統要安裝進入作業系統必須在塊設備上。

網路設備在Linux裡做專門的處理。Linux的網路系統主要是基于BSD unix的socket機製

。在系統和驅動程式之間定義有專門的數據架構(sk_buff)進行數據的傳遞。系統裡支持

對發送數據和接收數據的緩存,提供流量控制機製,提供對多協議的支持。

1.2 編寫驅動程式的一些基本概念

無論是什麼作業系統的驅動程式,都有一些通用的概念。作業系統提供給驅動程式的支

持也大致相同。下面簡單介紹一下網路設備驅動程式的一些基本要求。

1.2.1 發送和接收

這是一個網路設備最基本的功能。一塊網卡所做的無非就是收發工作。所以驅動程式裡

要告訴系統你的發送函數在那裡,系統在有數據要發送時就會調用你的發 送程式。還有

驅動程式由於是直接操縱硬體的,所以網路硬體有數據收到最先能得到這個數據的也就

是驅動程式,它負責把這些原始數據進行必要的處理然后送給系統。這裡,作業系統必

須要提供兩個機製,一個是找到驅動程式的發送函數,一個是驅動程式把收到的數據送

給系統。

1.2.2 中斷

中斷在現代計算機架構中有重要的地位。作業系統必須提供驅動程式附應中斷的能力。

一般是把一個中斷處理程式註冊到系統中去。作業系統在硬體中斷發生后 調用驅動程式

的處理程式。Linux支持中斷的共享,即多個設備共享一個中斷。

1.2.3 時鐘

在實現驅動程式時,很多地方會用到時鐘。如某些協議裡的超時處理,沒有中斷機製的

硬體的輪詢等。作業系統應為驅動程式提供定時機製。一般是在預定的時 間過了以後回

調註冊的時鐘函數。在網路驅動程式中,如果硬體沒有中斷功能,定時器可以提供輪詢

(poll)模式對硬體進行存取。或者是實現某些協議時需要的超時重傳等。

二.Linux系統網路設備驅動程式

2.1 網路驅動程式的架構

所有的Linux網路驅動程式遵循通用的界面。設計時採用的是面向對象的方法。一個設備

就是一個對象(device 架構),它內部有自己的數據和方法。每一個設備的方法被調用時

的第一個參數都是這個設備對象本身。這樣這個方法就可以存取自身的數據(類似面向對

象程式設計時的this引用)。

一個網路設備最基本的方法有初始化、發送和接收。

------------------- ---------------------

|deliver packets | |receive packets queue|

|(dev_queue_xmit()) | |them(netif_rx()) |

------------------- ---------------------

| | /

/ | |

-------------------------------------------------------

| methods and variables(initialize,open,close,hard_xmit,|

| interrupt handler,config,resources,status...) |

-------------------------------------------------------

| | /

/ | |

----------------- ----------------------

|send to hardware | |receivce from hardware|

----------------- ----------------------

| | /

/ | |

-----------------------------------------------------

| hardware media |

-----------------------------------------------------

初始化程式完成硬體的初始化、device中變量的初始化和系統資源的申請。發送程式是

在驅動程式的上層協議層有數據要發送時自動調用的。一般驅動程式中不對發送數據進

行緩存,而是直接使用硬體的發送功能把數據發送出去。接收數據一般是透過硬體中斷

來通知的。在中斷處理程式裡,把硬體幀訊息填入一個skbuff架構中,然后調用netif_

rx()傳遞給上層處理。

2.2 網路驅動程式的基本方法

網路設備做為一個對象,提供一些方法供系統訪問。正是這些有統一界面的方法,掩蔽

了硬體的具體細節,讓系統對各種網路設備的訪問都採用統一的形式,做到硬體無關性



下面解釋最基本的方法。

2.2.1 初始化(initialize)

驅動程式必須有一個初始化方法。在把驅動程式載入系統的時候會調用這個初始化程式

。它做以下幾方面的工作。檢測設備。在初始化程式裡你可以根據硬體的特徵檢查硬體

是否存在,然后決定是否啟動這個驅動程式。配置和初始化硬體。在初始化程式裡你可

以完成對硬體資源的配置,比如即插即用的硬體就可以在這個時候進行配置(Linux內核

對PnP功能沒有很好的支持,可以在驅動程式裡完成這個功能)。配置或協商好硬體佔用

的資源以後,就可以向系統申請這些資源。有些資源是可以和別的設備共享的,如中斷

。有些是不能共享的,如IO、DMA。接下來你要初始化device架構中的變量。最後,你可

以讓硬體正式開始工作。

2.2.2 打開(open)

open這個方法在網路設備驅動程式裡是網路設備被激活的時候被調用(即設備狀態由dow

n-->up)。所以實際上很多在initialize中的工作可以放到這裡來做。比如資源的申請,

硬體的激活。如果dev->open返回非0(error),則硬體的狀態還是down。

open方法另一個作用是如果驅動程式做為一個模塊被裝入,則要防止模塊卸載時設備處

于打開狀態。在open方法裡要調用MOD_INC_USE_COUNT宏。

2.2.3 關閉(stop)

close方法做和open相反的工作。可以釋放某些資源以減少系統負擔。close是在設備狀

態由up轉為down時被調用的。另外如果是做為模塊裝入的驅動程式,close裡應該調用M

OD_DEC_USE_COUNT,減少設備被引用的次數,以使驅動程式可以被卸載。

另外close方法必須返回成功(0==success)。

2.2.4 發送(hard_start_xmit)

所有的網路設備驅動程式都必須有這個發送方法。在系統調用驅動程式的xmit時,發送

的數據放在一個sk_buff架構中。一般的驅動程式把數據傳給硬體發出去。也有一些特殊

的設備比如loopback把數據組成一個接收數據再回送給系統,或者dummy設備直接丟棄數

據。

如果發送成功,hard_start_xmit方法裡釋放sk_buff,返回0(發送成功)。如果設備暫時

無法處理,比如硬體忙,則返回1。這時如果dev->tbusy置為非0,則系統認為硬體忙,

要等到dev->tbusy置0以後才會再次發送。tbusy的置0任務一般由中斷完成。硬體在發送

結束后產生中斷,這時可以把tbusy置0,然后用mark_bh()調用通知系統可以再次發送。

在發送不成功的情況下,也可以不置dev->tbusy為非0,這樣系統會不斷嘗試重發。如果

hard_start_xmit發送不成功,則不要釋放sk_buff。傳送下來的sk_buff中的數據已經包

含硬體需要的幀頭。所以在發送方法裡不需要再填充硬體幀頭,數據可以直接提交給硬

件發送。sk_buff是被鎖住的(locked),確保其他程式不會存取它。

2.2.5 接收(reception)

驅動程式並不存在一個接收方法。有數據收到應該是驅動程式來通知系統的。一般設備

收到數據后都會產生一個中斷,在中斷處理程式中驅動程式申請一塊sk_buff(skb),從

硬體讀出數據放置到申請好的緩沖區裡。接下來填充sk_buff中 的一些訊息。skb->dev

= dev,判斷收到幀的協議類型,填入skb->protocol(多協 議的支持)。把指針skb->m

ac.raw指向硬體數據然后丟棄硬體幀頭(skb_pull)。還要設置skb->pkt_type,標明第二

層(鏈路層)數據類型。可以是以下類型︰

PACKET_BROADCAST : 鏈路層廣播

PACKET_MULTICAST : 鏈路層組播

PACKET_SELF : 發給自己的幀

PACKET_OTHERHOST : 發給別人的幀(監聽模式時會有這種幀)

最後調用netif_rx()把數據傳送給協議層。netif_rx()裡數據放入處理隊列然后返回,

真正的處理是在中斷返回以後,這樣可以減少中斷時間。調用netif_rx()以後,

驅動程式就不能再存取數據緩沖區skb。

2.2.6 硬體幀頭(hard_header)

硬體一般都會在上層數據發送之前加上自己的硬體幀頭,比如以太網(Ethernet)就有14

位元組的幀頭。這個幀頭是加在上層ip、ipx等數據包的前面的。驅動程式提供一個hard_

header方法,協議層(ip、ipx、arp等)在發送數據之前會調用這段程式。

硬體幀頭的長度必須填在dev->hard_header_len,這樣協議層回在數據之前保留好硬體

幀頭的空間。這樣hard_header程式只要調用skb_push然后正確填入硬體幀頭就可以了。



在協議層調用hard_header時,傳送的參數包括(2.0.xx)︰數據的sk_buff,device指針

,protocol,到達站址(daddr),源位址(saddr),數據長度(len)。數據長度不要使用s

k_buff中的參數,因為調用hard_header時數據可能還沒完全組織好。saddr是NULL的話

是使用缺省位址(default)。daddr是NULL表明協議層不知道硬體到達站址。如果hard_h

eader完全填好了硬體幀頭,則返回添加的位元組數。如果硬體幀頭中的訊息還不完全(比

如daddr為NULL,但是幀頭中需要目的硬體位址。典型的情況是以太網需要位址解析(ar

p)),則返回負位元組數。hard_header返回負數的情況下,協議層會做進一步的build he

ader的工作。目前Linux系統裡就是做arp (如果hard_header返回正,dev->arp=1,表明

不需要做arp,返回負,dev->arp=0,做arp)。

對hard_header的調用在每個協議層的處理程式裡。如ip_output。

2.2.7 位址解析(xarp)

有些網路有硬體位址(比如Ethernet),並且在發送硬體幀時需要知道目的硬體位址。這

樣就需要上層協議位址(ip、ipx)和硬體位址的對應。這個對應是透過位址解析完成的。

需要做arp的的設備在發送之前會調用驅動程式的rebuild_header方法。調用的主要參數

包括指向硬體幀頭的指針,協議層位址。如果驅動程式能夠解析硬體位址,就返回1,如

果不能,返回0。

對rebuild_header的調用在net/core/dev.c的do_dev_queue_xmit()裡。

2.2.8 參數設置和統計數據

在驅動程式裡還提供一些方法供系統對設備的參數進行設置和讀取訊息。一般只有超級

用戶(root)權限才能對設備參數進行設置。設置方法有︰

dev->set_mac_address()

當用戶調用ioctl類型為SIOCSIFHWADDR時是要設置這個設備的mac位址。一般對mac位址

的設置沒有太大意義的。

dev->set_config()

當用戶調用ioctl時類型為SIOCSIFMAP時,系統會調用驅動程式的set_config方法。用戶

會傳遞一個ifmap架構包含需要的I/O、中斷等參數。

dev->do_ioctl()

如果用戶調用ioctl時類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,系統會調用驅

動程式的這個方法。一般是設置設備的專用數據。

讀取訊息也是透過ioctl調用進行。除次之外驅動程式還可以提供一個

dev->get_stats方法,返回一個enet_statistics架構,包含發送接收的統計訊息。ioc

tl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()裡。

linuxman@263.net

.3 網路驅動程式中用到的數據架構

最重要的是網路設備的數據架構。定義在include/linux/netdevice.h裡。它的註釋已經

足夠詳盡。

struct device

{

/*

* This is the first field of the "visible" part of this structure

* (i.e. as seen by users in the "Space.c" file). It is the name

* the interface.

*/

char *name;

/* I/O specific fields - FIXME: Merge these and struct ifmap into one */

unsigned long rmem_end; /* shmem "recv" end */

unsigned long rmem_start; /* shmem "recv" start */

unsigned long mem_end; /* shared mem end */

unsigned long mem_start; /* shared mem start */

unsigned long base_addr; /* device I/O address */

unsigned char irq; /* device IRQ number */

/* Low-level status flags. */

volatile unsigned char start, /* start an operation */

interrupt; /* interrupt arrived */

/* 在處理中斷時interrupt設為1,處理完清0。 */

unsigned long tbusy; /* transmitter busy must be long for

bitops */

struct device *next;

/* The device initialization function. Called only once. */

/* 指向驅動程式的初始化方法。 */

int (*init)(struct device *dev);

/* Some hardware also needs these fields, but they are not part of the

usual set specified in Space.c. */

/* 一些硬體可以在一塊板上支持多個界面,可能用到if_port。 */

unsigned char if_port; /* Selectable AUI, TP,..*/

unsigned char dma; /* DMA channel */

struct enet_statistics* (*get_stats)(struct device *dev);

/*

* This marks the end of the "visible" part of the structure. All

* fields hereafter are internal to the system, and may change at

* will (read: may be cleaned up at will).

*/

/* These may be needed for future network-power-down code. */

/* trans_start記錄最後一次成功發送的時間。可以用來確定硬體是否工作正常。*/

unsigned long trans_start; /* Time (in jiffies) of last Tx */

unsigned long last_rx; /* Time of last Rx */

/* flags裡面有很多內容,定義在include/linux/if.h裡。*/

unsigned short flags; /* interface flags (a la BSD) */

unsigned short family; /* address family ID (AF_INET) */

unsigned short metric; /* routing metric (not used) */

unsigned short mtu; /* interface MTU value */

/* type標明物理硬體的類型。主要說明硬體是否需要arp。定義在

include/linux/if_arp.h裡。 */

unsigned short type; /* interface hardware type */

/* 上層協議層根據hard_header_len在發送數據緩沖區前面預留硬體幀頭空間。*/

unsigned short hard_header_len; /* hardware hdr length */

/* priv指向驅動程式自己定義的一些參數。*/

void *priv; /* pointer to private data */

/* Interface address info. */

unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */

unsigned char pad; /* make dev_addr aligned to 8

bytes */

unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */

unsigned char addr_len; /* hardware address length */

unsigned long pa_addr; /* protocol address */

unsigned long pa_brdaddr; /* protocol broadcast addr */

unsigned long pa_dstaddr; /* protocol P-P other side addr */

unsigned long pa_mask; /* protocol netmask */

unsigned short pa_alen; /* protocol address length */

struct dev_mc_list *mc_list; /* Multicast mac addresses */

int mc_count; /* Number of installed mcasts */

struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */

__u32 tx_queue_len; /* Max frames per queue allowed */

/* For load balancing driver pair support */

unsigned long pkt_queue; /* Packets queued */

struct device *slave; /* Slave device */

struct net_alias_info *alias_info; /* main dev alias info */

struct net_alias *my_alias; /* alias devs */

/* Pointer to the interface buffers. */

struct sk_buff_head buffs[DEV_NUMBUFFS];

/* Pointers to interface service routines. */

int (*open)(struct device *dev);

int (*stop)(struct device *dev);

int (*hard_start_xmit) (struct sk_buff *skb,

struct device *dev);

int (*hard_header) (struct sk_buff *skb,

struct device *dev,

unsigned short type,

void *daddr,

void *saddr,

unsigned len);

int (*rebuild_header)(void *eth, struct device *dev,

unsigned long raddr, struct sk_buff *skb);

#define HAVE_MULTICAST

void (*set_multicast_list)(struct device *dev);

#define HAVE_SET_MAC_ADDR

int (*set_mac_address)(struct device *dev, void *addr);

#define HAVE_PRIVATE_IOCTL

int (*do_ioctl)(struct device *dev, struct ifreq *ifr, int cmd);

#define HAVE_SET_CONFIG

int (*set_config)(struct device *dev, struct ifmap *map);

#define HAVE_HEADER_CACHE

void (*header_cache_bind)(struct hh_cache **hhp, struct device

*dev, unsigned short htype, __u32 daddr);

void (*header_cache_update)(struct hh_cache *hh, struct device

*dev, unsigned char * haddr);

#define HAVE_CHANGE_MTU

int (*change_mtu)(struct device *dev, int new_mtu);

struct iw_statistics* (*get_wireless_stats)(struct device *dev);

};

2.4 常用的系統支持

2.4.1 內存申請和釋放

include/linux/kernel.h裡聲明了kmalloc()和kfree()。用于在內核模式下申請和釋放

內存。

void *kmalloc(unsigned int len,int priority);

void kfree(void *__ptr);

與用戶模式下的malloc()不同,kmalloc()申請空間有大小限制。長度是2的整次方。可

以申請的最大長度也有限制。另外kmalloc()有priority參數,通常使用時可以為GFP_K

ERNEL,如果在中斷裡調用用GFP_ATOMIC參數,因為使用GFP_KERNEL 則調用者可能進入

sleep狀態,在處理中斷時是不允許的。

kfree()釋放的內存必須是kmalloc()申請的。如果知道內存的大小,也可以用kfree_s(

)釋放。

2.4.2 request_irq()、free_irq()

這是驅動程式申請中斷和釋放中斷的調用。在include/linux/sched.h裡聲明。

request_irq()調用的定義︰

int request_irq(unsigned int irq,

void (*handler)(int irq, void *dev_id, struct pt_regs *regs),

unsigned long irqflags,

const char * devname,

void *dev_id);

irq是要申請的硬體中斷號。在Intel平台,範圍0--15。handler是向系統登記的中斷處

理函數。這是一個回調函數,中斷發生時,系統調用這個函數,傳入的參 數包括硬體中

斷號,device id,暫存器值。dev_id就是下面的request_irq時傳遞 給系統的參數dev

_id。irqflags是中斷處理的一些屬性。比較重要的有SA_INTERRUPT,

標明中斷處理程式是快速處理程式(設置SA_INTERRUPT)還是慢速處理程式(不設置SA_IN

TERRUPT)。快速處理程式被調用時屏蔽所有中斷。慢速處理程式不屏蔽。還有 一個SA_

SHIRQ屬性,設置了以後營運多個設備共享中斷。dev_id在中斷共享時會用到。一般設置

為這個設備的device架構本身或者NULL。中斷處理程式可以用dev_id 找到相應的控制這

個中斷的設備,或者用irq2dev_map找到中斷對應的設備。

void free_irq(unsigned int irq,void *dev_id);

2.4.3 時鐘

時鐘的處理類似中斷,也是登記一個時間處理函數,在預定的時間過后,系統會調用這

個函數。在include/linux/timer.h裡聲明。

struct timer_list {

struct timer_list *next;

struct timer_list *prev;

unsigned long expires;

unsigned long data;

void (*function)(unsigned long);

};

void add_timer(struct timer_list * timer);

int del_timer(struct timer_list * timer);

void init_timer(struct timer_list * timer);

使用時鐘,先聲明一個timer_list架構,調用init_timer對它進行初始化。

time_list架構裡expires是標明這個時鐘的週期,單位採用jiffies的單位。

jiffies是Linux一個全局變量,代表時間。它的單位隨硬體平台的不同而不同。

系統裡定義了一個常數HZ,代表每秒種最小時間間隔的數目。這樣jiffies的單位就是1

/HZ。Intel平台jiffies的單位是1/100秒,這就是系統所能分辨的最小時間間隔了。所

以expires/HZ就是以秒為單位的這個時鐘的週期。

function就是時間到了以後的回調函數,它的參數就是timer_list中的data。data這個

參數在初始化時鐘的時候賦值,一般賦給它設備的device架構指針。

在預置時間到系統調用function,同時系統把這個time_list從定時隊列裡清除。所以如

果需要一直使用定時函數,要在function裡再次調用add_timer()把這個timer_list加進

定時隊列。

2.4.4 I/O

I/O端口的存取使用︰

inline unsigned int inb(unsigned short port);

inline unsigned int inb_p(unsigned short port);

inline void outb(char value, unsigned short port);

inline void outb_p(char value, unsigned short port);

在include/adm/io.h裡定義。

inb_p()、outb_p()與inb()、outb_p()的不同在于前者在存取I/O時有等待(pause)一適

應慢速的I/O設備。

為了防止存取I/O時發生衝突,Linux提供對端口使用情況的控制。在使用端口之前,可

以檢查需要的I/O是否正在被使用,如果沒有,則把端口標記為正在使用,使用完后再釋

放。系統提供以下幾個函數做這些工作。

int check_region(unsigned int from, unsigned int extent);

void request_region(unsigned int from, unsigned int extent,const char *name)

;

void release_region(unsigned int from, unsigned int extent);

其中的參數from表示用到的I/O端口的起始位址,extent標明從from開始的端口數目。n

ame為設備名稱。

2.4.5 中斷打開關閉

系統提供給驅動程式開放和關閉附應中斷的能力。是在include/asm/system.h中的兩個

定義。

#define cli() __asm__ __volatile__ ("cli"::)

#define sti() __asm__ __volatile__ ("sti"::)

2.4.6 打印訊息

類似普通程式裡的printf(),驅動程式要輸出訊息使用printk()。在include/linux/ke

rnel.h裡聲明。

int printk(const char* fmt, ...);

其中fmt是格式化字元串。...是參數。都是和printf()格式一樣的。

2.4.7 註冊驅動程式

如果使用模塊(module)模式加載驅動程式,需要在模塊初始化時把設備註冊 到系統設備

表裡去。不再使用時,把設備從系統中卸除。定義在drivers/net/net_init.h裡的兩個

函數完成這個工作。

int register_netdev(struct device *dev);

void unregister_netdev(struct device *dev);

dev就是要註冊進系統的設備架構指針。在register_netdev()時,dev架構一般填寫前面

11項,即到init,后面的暫時可以不用初始化。最重要的是name指針和init方法。name

指針空(NULL)或者內容為或者name[0]為空格(space),則系統把你的設備做為以太網設

備處理。以太網設備有統一的命名格式,ethX。對以太網這么特別對待大概和Linux的歷

史有關。

init方法一定要提供,register_netdev()會調用這個方法讓你對硬體檢測和設置。

register_netdev()返回0表示成功,非0不成功。

2.4.8 sk_buff

Linux網路各層之間的數據傳送都是透過sk_buff。sk_buff提供一套管理緩沖區的方法,

是Linux系統網路高效營運的關鍵。每個sk_buff包括一些控制方法和一塊數據緩沖區。

控制方法按功能分為兩種類型。一種是控制整個buffer鏈的方法,

另一種是控制數據緩沖區的方法。sk_buff組織成雙向鏈表的形式,根據網路應用的特點

,對鏈表的操作主要是刪除鏈表頭的元素和添加到鏈表尾。sk_buff的控制

方法都很短小以盡量減少系統負荷。(translated from article written by Alan Cox

)

常用的方法包括︰

.alloc_skb() 申請一個sk_buff並對它初始化。返回就是申請到的sk_buff。

.dev_alloc_skb()類似alloc_skb,在申請好緩沖區后,保留16位元組的幀頭空間。主要用

在Ethernet驅動程式。

.kfree_skb() 釋放一個sk_buff。

.skb_clone() 複製一個sk_buff,但不複製數據部分。

.skb_copy()完全複製一個sk_buff。

.skb_dequeue() 從一個sk_buff鏈表裡取出第一個元素。返回取出的sk_buff,如果鏈表

空則返回NULL。這是常用的一個操作。

.skb_queue_head() 在一個sk_buff鏈表頭放入一個元素。

.skb_queue_tail() 在一個sk_buff鏈表尾放入一個元素。這也是常用的一個操作。網路

數據的處理主要是對一個先進先出隊列的管理,skb_queue_tail()

和skb_dequeue()完成這個工作。

.skb_insert() 在鏈表的某個元素前插入一個元素。

.skb_append() 在鏈表的某個元素后插入一個元素。一些協議(如TCP)對沒按順序到達的

數據進行重組時用到skb_insert()和skb_append()。

.skb_reserve() 在一個申請好的sk_buff的緩沖區裡保留一塊空間。這個空間一般是用

做下一層協議的頭空間的。

.skb_put() 在一個申請好的sk_buff的緩沖區裡為數據保留一塊空間。在

alloc_skb以後,申請到的sk_buff的緩沖區都是處于空(free)狀態,有一個tail指針指

向free空間,實際上開始時tail就指向緩沖區頭。skb_reserve()

在free空間裡申請協議頭空間,skb_put()申請數據空間。見下面的圖。

.skb_push() 把sk_buff緩沖區裡數據空間往前移。即把Head room中的空間移一部分到

Data area。

.skb_pull() 把sk_buff緩沖區裡Data area中的空間移一部分到Head room中。

--------------------------------------------------

| Tail room(free) |

--------------------------------------------------

After alloc_skb()

--------------------------------------------------

| Head room | Tail room(free) |

--------------------------------------------------

After skb_reserve()

--------------------------------------------------

| Head room | Data area | Tail room(free) |

--------------------------------------------------

After skb_put()

--------------------------------------------------

|Head| skb_ | Data | Tail room(free) |

|room| push | | |

| | Data area | |

--------------------------------------------------

After skb_push()

--------------------------------------------------

| Head | skb_ | Data area | Tail room(free) |

| | pull | | |

| Head room | | |

--------------------------------------------------

After skb_pull()

三.編寫Linux網路驅動程式中需要注意的問題

3.1 中斷共享

Linux系統營運幾個設備共享同一個中斷。需要共享的話,在申請的時候指明共享模式。

系統提供的request_irq()調用的定義︰

int request_irq(unsigned int irq,

void (*handler)(int irq, void *dev_id, struct pt_regs *regs),

unsigned long irqflags,

const char * devname,

void *dev_id);

如果共享中斷,irqflags設置SA_SHIRQ屬性,這樣就允許別的設備申請同一個中斷。需

要注意所有用到這個中斷的設備在調用request_irq()都必須設置這個屬性。系統在回調

每個中斷處理程式時,可以用dev_id這個參數找到相應的設備。一 般dev_id就設為dev

ice架構本身。系統處理共享中斷是用各自的dev_id參數依次調用每一個中斷處理程式。



3.2 硬體發送忙時的處理

主CPU的處理能力一般比網路發送要快,所以經常會遇到系統有數據要發,但上一包數據

網路設備還沒發送完。因為在Linux裡網路設備驅動程式一般不做數據緩存,不能發送的

數據都是通知系統發送不成功,所以必須要有一個機製在硬體不忙時及時通知系統接著

發送下面的數據。

一般對發送忙的處理在前面設備的發送方法(hard_start_xmit)裡已經描述過,即如果發

送忙,置tbusy為1。處理完發送數據后,在發送結束中斷裡清tbusy,同時用mark_bh()

調用通知系統繼續發送。

但在具體實現我的驅動程式時發現,這樣的處理系統好像並不能及時地知道硬體已經空

閑了,即在mark_bh()以後,系統要等一段時間才會接著發送。造成發送效率很低。2M線

路只有10%不到的使用率。內核版本為2.0.35。

我最後的實現是不把tbusy置1,讓系統始終認為硬體空閒,但是報告發送不成功。系統

會一直嘗試重發。這樣處理就營運正常了。但是遍循內核源碼中的網路驅動程式,似乎

沒有這樣處理的。不知道症結在那裡。

3.3 流量控制(flow control)

網路數據的發送和接收都需要流量控制。這些控制是在系統裡實現的,不需要驅動程式

做工作。每個設備數據架構裡都有一個參數dev->tx_queue_len,這個參數標明發送時最

多緩存的數據包。在Linux系統裡以太網設備(10/100Mbps)tx_queue_len一般設置為100

,串行線路(異步串口)為10。實際上如果看源碼可以知道,設置了dev->tx_queue_len並

不是為緩存這些數據申請了空間。這個參數只是在收到協議層的數據包時判斷發送隊列

裡的數據是不是到了tx_queue_len的限度,以決定這一包數據加不加進發送隊列。發送

時另一個方面的流控是更高層協議的發送窗口(TCP協議裡就有發送窗口)。達到了窗口大

小,高層協議就不會再發送數據。

接收流控也分兩個層次。netif_rx()緩存的數據包有限制。另外高層協議也會有一個最

大的等待處理的數據量。

發送和接收流控處理在net/core/dev.c的do_dev_queue_xmit()和netif_rx()中。

3.4 調試

很多Linux的驅動程式都是編譯進內核的,形成一個大的內核文件。但對調試來說,這是

相當麻煩的。調試驅動程式可以用module模式加載。支持模塊模式的驅動程式必須提供

兩個函數︰int init_module(void)和void cleanup_module(void)。init_module()在加

載此模塊時調用,在這個函數裡可以register_netdev()註冊設備。init_module()返回

0表示成功,返回負表示失敗。cleanup_module()在驅動程式被卸載時調用,清除佔用的

資源,調用unregister_netdev()。

模塊可以動態地加載、卸載。在2.0.xx版本裡,還有kerneld自動加載模塊,但是2.2.x

x中已經取消了kerneld。手工加載使用insmod命令,卸載用rmmod命令,看內核中的模塊

用lsmod命令。

編譯驅動程式用gcc,主要命令行參數-DKERNEL -DMODULE。並且作為模塊加載的驅動程

序,只編譯成obj形式(加-c參數)。編譯好的目標文件放在/lib/modules/2.x.xx/misc下

,在啟動文件裡用insmod加載。

四.進一步的閱讀

Linux程式設計資料可以從網上獲得。這就是開放源代碼的好處。並且沒有什麼“未公開

的祕密”。我編寫驅動程式時參閱的主要資料包括︰

Linux內核源代碼

> by Michael K. Johnson

> by Ori Pomerantz

by olly in BBS水木清華站

可以選擇一個模板作為開始,內核源代碼裡有一個網路驅動程式的模板,

drivers/net/skeleton.c。裡麵包含了驅動程式的基本內容。但這個模板是以以太網設

備為對象的,以太網的處理在Linux系統裡有特殊“待遇”,所以如果不是以太網設備,

有些細節上要注意,主要在初始化程式裡。

最後,多參照別人寫的程式,聽聽其他開發者的經驗之談大概是最有效的幫助了。



-----


全站熱搜
創作者介紹
創作者 eager 的頭像
eager

Green Wind

eager 發表在 痞客邦 留言(0) 人氣()