使用 readdir
实现多线程目录扫描,可以显著提高扫描速度,特别是在处理包含大量文件和子目录的目录时。以下是使用 C 语言和 POSIX 线程(pthreads)实现多线程目录扫描的基本步骤和示例代码。
主函数初始化:
工作线程函数:
readdir
读取目录内容。同步机制:
结束条件:
以下是一个简单的多线程目录扫描示例:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <dirent.h>
#include <pthread.h>
// 定义最大线程数
#define MAX_THREADS 10
// 全局变量
int thread_count = 0;
pthread_mutex_t queue_mutex = PTHREAD_MUTEX_INITIALIZER;
pthread_cond_t queue_cond = PTHREAD_COND_INITIALIZER;
int done = 0;
// 目录项结构体
typedef struct {
char path[1024];
} dir_entry;
// 工作线程函数
void* scan_directory(void* arg) {
while (1) {
pthread_mutex_lock(&queue_mutex);
// 等待直到有任务或完成
while (thread_count >= MAX_THREADS && !done) {
pthread_cond_wait(&queue_cond, &queue_mutex);
}
if (done && queue_empty()) {
pthread_mutex_unlock(&queue_mutex);
pthread_exit(NULL);
}
// 获取目录项
dir_entry entry;
if (!queue_dequeue(&entry)) {
pthread_mutex_unlock(&queue_mutex);
break;
}
pthread_mutex_unlock(&queue_mutex);
// 打开目录
DIR* dir = opendir(entry.path);
if (dir == NULL) {
perror("opendir");
continue;
}
struct dirent* dp;
while ((dp = readdir(dir)) != NULL) {
if (strcmp(dp->d_name, ".") == 0 || strcmp(dp->d_name, "..") == 0)
continue;
char child_path[1024];
snprintf(child_path, sizeof(child_path), "%s/%s", entry.path, dp->d_name);
pthread_mutex_lock(&queue_mutex);
if (thread_count < MAX_THREADS) {
queue_enqueue(child_path);
thread_count++;
} else {
pthread_cond_signal(&queue_cond);
}
pthread_mutex_unlock(&queue_mutex);
}
closedir(dir);
}
return NULL;
}
// 简单的队列实现
#define QUEUE_CAPACITY 1024
typedef struct {
dir_entry items[QUEUE_CAPACITY];
int front;
int rear;
int size;
} queue_t;
queue_t queue = { .front = 0, .rear = -1, .size = 0 };
int queue_empty() {
return queue.size == 0;
}
int queue_enqueue(dir_entry item) {
if (queue.size >= QUEUE_CAPACITY) {
return 0; // 队列满
}
queue.rear = (queue.rear + 1) % QUEUE_CAPACITY;
queue.items[queue.rear] = item;
queue.size++;
return 1;
}
int queue_dequeue(dir_entry* item) {
if (queue_empty()) {
return 0; // 队列空
}
*item = queue.items[queue.front];
queue.front = (queue.front + 1) % QUEUE_CAPACITY;
queue.size--;
return 1;
}
// 添加目录到队列
void add_to_queue(const char* path) {
pthread_mutex_lock(&queue_mutex);
if (thread_count < MAX_THREADS) {
dir_entry entry;
snprintf(entry.path, sizeof(entry.path), "%s", path);
queue_enqueue(entry);
thread_count++;
pthread_cond_signal(&queue_cond);
} else {
pthread_cond_wait(&queue_cond, &queue_mutex);
add_to_queue(path); // 递归添加
}
pthread_mutex_unlock(&queue_mutex);
}
int main(int argc, char* argv[]) {
if (argc != 2) {
fprintf(stderr, "Usage: %s <directory>\n", argv[0]);
return EXIT_FAILURE;
}
const char* start_path = argv[1];
// 添加起始目录到队列
add_to_queue(start_path);
// 创建工作线程
pthread_t threads[MAX_THREADS];
for (int i = 0; i < MAX_THREADS; i++) {
if (pthread_create(&threads[i], NULL, scan_directory, NULL) != 0) {
perror("pthread_create");
exit(EXIT_FAILURE);
}
}
// 等待所有线程完成
pthread_mutex_lock(&queue_mutex);
done = 1;
pthread_cond_broadcast(&queue_cond);
pthread_mutex_unlock(&queue_mutex);
for (int i = 0; i < MAX_THREADS; i++) {
pthread_join(threads[i], NULL);
}
return EXIT_SUCCESS;
}
队列实现:
queue_t
来存储待扫描的目录路径。queue_enqueue
和 queue_dequeue
函数来添加和移除目录项。queue_mutex
和条件变量 queue_cond
来同步对队列的访问。线程管理:
add_to_queue
函数将起始目录添加到队列中。scan_directory
函数。readdir
读取内容,并根据需要将子目录添加到队列中。thread_count
变量跟踪当前活跃的线程数,以控制并发度。同步与结束:
done = 1
并广播条件变量,通知工作线程退出。done
标志且队列为空时,结束自身。错误处理:
递归深度:上述示例没有限制递归深度,如果目录结构非常深,可能会导致大量线程被创建。可以考虑增加递归深度限制或优化线程管理策略。
性能优化:
MAX_THREADS
的值,以达到最佳性能。pthreadpool
)来管理线程。平台兼容性:此示例基于 POSIX 标准,适用于类 Unix 系统。如果在 Windows 上实现,需要使用 Windows 线程 API(如 CreateThread
)和相应的同步机制。
安全性:确保对共享资源的访问都受到互斥锁的保护,避免竞态条件和数据不一致。
通过上述方法,可以有效地使用 readdir
和多线程技术实现高效的目录扫描。根据具体需求,还可以进一步扩展功能,例如统计文件数量、过滤特定类型的文件等。
辰迅云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
推荐阅读: linux怎么启动docker服务