CCF CSP 201803-3.URL映射

问题描述

  URL 映射是诸如 Django、Ruby on Rails 等网页框架 (web frameworks) 的一个重要组件。对于从浏览器发来的 HTTP 请求,URL 映射模块会解析请求中的 URL 地址,并将其分派给相应的处理代码。现在,请你来实现一个简单的 URL 映射功能。
  本题中 URL 映射功能的配置由若干条 URL 映射规则组成。当一个请求到达时,URL 映射功能会将请求中的 URL 地址按照配置的先后顺序逐一与这些规则进行匹配。当遇到第一条完全匹配的规则时,匹配成功,得到匹配的规则以及匹配的参数。若不能匹配任何一条规则,则匹配失败。
  本题输入的 URL 地址是以斜杠 / 作为分隔符的路径,保证以斜杠开头。其他合法字符还包括大小写英文字母、阿拉伯数字、减号 -、下划线 _ 和小数点 .。例如,/person/123/ 是一个合法的 URL 地址,而 /person/123? 则不合法(存在不合法的字符问号 ?)。另外,英文字母区分大小写,因此 /case/ 和 /CAse/ 是不同的 URL 地址。
  对于 URL 映射规则,同样是以斜杠开始。除了可以是正常的 URL 地址外,还可以包含参数,有以下 3 种:
  字符串 <str>:用于匹配一段字符串,注意字符串里不能包含斜杠。例如,abcde0123。
  整数 <int>:用于匹配一个不带符号的整数,全部由阿拉伯数字组成。例如,01234。
  路径 <path>:用于匹配一段字符串,字符串可以包含斜杠。例如,abcd/0123/。
  以上 3 种参数都必须匹配非空的字符串。简便起见,题目规定规则中 <str> 和 <int> 前面一定是斜杠,后面要么是斜杠,要么是规则的结束(也就是该参数是规则的最后一部分)。而 <path> 的前面一定是斜杠,后面一定是规则的结束。无论是 URL 地址还是规则,都不会出现连续的斜杠。

输入格式

  输入第一行是两个正整数 nm,分别表示 URL 映射的规则条数和待处理的 URL 地址个数,中间用一个空格字符分隔。
  第 2 行至第 n+1 行按匹配的先后顺序描述 URL 映射规则的配置信息。第 i+1 行包含两个字符串 piri,其中 pi 表示 URL 匹配的规则,ri 表示这条 URL 匹配的名字。两个字符串都非空,且不包含空格字符,两者中间用一个空格字符分隔。
  第 n+2 行至第 n+m+1 行描述待处理的 URL 地址。第 n+1+i 行包含一个字符串 qi,表示待处理的 URL 地址,字符串中不包含空格字符。

输出格式

  输入共 m 行,第 i 行表示 qi 的匹配结果。如果匹配成功,设匹配了规则 pj ,则输出对应的 rj。同时,如果规则中有参数,则在同一行内依次输出匹配后的参数。注意整数参数输出时要把前导零去掉。相邻两项之间用一个空格字符分隔。如果匹配失败,则输出 404。

样例输入

5 4
/articles/2003/ special_case_2003
/articles/<int>/ year_archive
/articles/<int>/<int>/ month_archive
/articles/<int>/<int>/<str>/ article_detail
/static/<path> static_serve
/articles/2004/
/articles/1985/09/aloha/
/articles/hello/
/static/js/jquery.js

样例输出

year_archive 2004
article_detail 1985 9 aloha
404
static_serve js/jquery.js

样例说明

  对于第 1 个地址 /articles/2004/,无法匹配第 1 条规则,可以匹配第 2 条规则,参数为 2004。
  对于第 2 个地址 /articles/1985/09/aloha/,只能匹配第 4 条规则,参数依次为 1985、9(已经去掉前导零)和 aloha。
  对于第 3 个地址 /articles/hello/,无法匹配任何一条规则。
  对于第 4 个地址 /static/js/jquery.js,可以匹配最后一条规则,参数为 js/jquery.js。

数据规模和约定

  1 ≤ n ≤ 100,1 ≤ m ≤ 100。
  所有输入行的长度不超过 100 个字符(不包含换行符)。
  保证输入的规则都是合法的。


分析:

若使用常规的字符串操作,解决本题将十分困难。因此,下面采用正则表达式求解。

主要的思路为:将输入规则中的<int><str><path>替换为对应的正则表达式(\\d+)([-\\w\\.]+)(.+)。这里的括号,表示正则表达式中的分组,便于后续输出匹配的各个参数。

  • C++版
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
#include <iostream>
#include <vector>
#include <string>
#include <regex>
using namespace std;

typedef struct Node {
// URL规则
string rule;
// 规则的名字
string name;
Node(string _rule, string _name) {
rule = _rule;
name = _name;
}
} UrlMapping;

bool match(UrlMapping urlMapping, string url) {
smatch result;
// 若不匹配
if (!regex_match(url, result, regex(urlMapping.rule))) {
return false;
}
cout << urlMapping.name;
for (int i = 1; i < result.size(); i++) {
// 若为数字,则去掉前导零
if (regex_match(result.str(i), regex("\\d+"))) {
cout << ' ' << stoi(result.str(i));
} else {
cout << ' ' << result.str(i);
}
}
cout << endl;
return true;
}

int main() {

int n, m;
cin >> n >> m;

vector<UrlMapping> mappings;
string rule, name;
while (n--) {
cin >> rule >> name;
// 将<int>、<str>和<path>替换为对应的正则表达式
rule = regex_replace(rule, regex("<int>"), "(\\d+)");
rule = regex_replace(rule, regex("<str>"), "([-\\w\\.]+)");
rule = regex_replace(rule, regex("<path>"), "(.+)");
mappings.push_back(UrlMapping(rule, name));
}

string url;
while (m--) {
cin >> url;
bool find = false;
// 暴力搜索匹配的URL规则
for (int i = 0; i < mappings.size(); i++) {
if (match(mappings[i], url)) {
find = true;
break;
}
}
// 若未找到匹配的URL规则
if (!find) {
cout << 404 << endl;
}
}
return 0;
}
  • Java版
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {

static class UrlMapping {
// URL规则
String rule;
// 规则的名字
String name;

public UrlMapping(String rule, String name) {
this.rule = rule;
this.name = name;
}
}

public static void main(String[] args) {
Scanner scan = new Scanner(System.in);
int n = scan.nextInt();
int m = scan.nextInt();

UrlMapping[] mappings = new UrlMapping[n];

for (int i = 0; i < mappings.length; i++) {
// 由于\为转义字符,要在字符串中表示普通的\,需要使用\\,因此\\d+需要表示为\\\\d+
String rule = scan.next().replaceAll("<int>", "(\\\\d+)")
.replaceAll("<str>", "([-\\\\w\\\\.]+)")
.replaceAll("<path>", "(.+)");
// 由于Matcher类的find()方法为部分匹配(只要有一个子串满足正则表达式即可),
// 因此加上^和$表示url需要整体匹配(整个字符串满足正则表达式)
rule = '^' + rule + '$';
mappings[i] = new UrlMapping(rule, scan.next());
}
for (int i = 0; i < m; i++) {
String url = scan.next();
boolean flag = false;
// 暴力搜索匹配的URL规则
for (UrlMapping urlMapping : mappings) {
if (matches(urlMapping, url)) {
flag = true;
break;
}
}
// 若未找到匹配的URL规则
if (!flag) {
System.out.println(404);
}
}

scan.close();
}

private static boolean matches(UrlMapping urlMapping, String url) {
Pattern p = Pattern.compile(urlMapping.rule);
Matcher m = p.matcher(url);
// 若不匹配
if (!m.find()) {
return false;
}
System.out.print(urlMapping.name);
for (int i = 1; i <= m.groupCount(); i++) {
String str = m.group(i);
// 若为数字,则去掉前导零
if (str.matches("\\d+")) {
System.out.print(" " + Integer.parseInt(str));
} else {
System.out.print(" " + str);
}
}
System.out.println();
return true;
}
}

----------本文结束感谢您的阅读----------
坚持原创技术分享,您的支持将鼓励我继续创作!