加龙

加龙加香不加价
随笔 - 133, 评论 - 402 , 引用 - 51

使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

在网上查了很多很多,都没有找到一个例子,

只有一些什么把网页内的某些字替换成红色之类的垃圾源代码,

VB代码

Function RegExpTest(patrn, strng) 'patrn:需要查找的字符 strng:被查找的字符串
  Dim regEx, Match, Matches     ' 创建变量。
  Set regEx = New RegExp            ' 创建正则表达式。
  regEx.Pattern = patrn         ' 设置模式。'"\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*"'
  regEx.IgnoreCase = True           ' 设置是否区分大小写。
  regEx.Global = True           ' 设置全程匹配。
  Set Matches = regEx.Execute(strng)    ' 执行搜索。
  For Each Match In Matches     ' 循环遍历Matches集合。
    RetStr = RetStr & Match.Value & "|"
  Next
  RegExpTest = RetStr
End Function

'函数返回所有的查找的内容,以“|”号隔开,用户只需使用split将其转化为数组即可使用

    URLRegExp = "http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?" 'URL正则表达式
    MailRegExp = "\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" '电子邮件正则表达式

 

 

 

发表于 2005年3月18日 17:58

评论

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

闲来无事,到此一游:)
2005/3/21 13:07 | 心云意水

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

在网上找了半天,没有找到网页内容提取的VB 代码。VC的倒是蛮多!!
麻烦帮我看下,这段代码有啥问题?


Sub FindFile(fd As Folder, FileName As String)
Dim sfd As Folder, f As File
' Part I查找该文件夹的所有文件
For Each f In fd.Files
If UCase(f.Name) Like UCase(FileName) Then
Label2 = f.Path
StripEmail (f.Path)
lblEmail = "已查找到的地址数为: " & lstEmail.ListCount
End If
DoEvents
Next
' Part II循环查找所有子文件夹
For Each sfd In fd.SubFolders
FindFile sfd, FileName ' 循环查找
Next
End Sub
2005/12/7 0:15 | benjy

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

不小心竟然搜到你的博客,,,

路过不打招呼不合适,,,


还好吧 :D
2006/4/25 22:46 | bg3ak

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

哈哈,看来是熟人,但,谁呢?
2006/4/26 16:55 | ddf3

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

好不容易找到了,不过我还没试,还是感谢你
2007/3/9 21:34 | 钱先生

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

URL表达式不能提取用相对路径,比如<a href="/aaa.htm">测试</a>
2007/9/27 16:27 | zfb

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

URL表达式不能提取用相对路径,比如<a href="/aaa.htm">测试</a>
2007/9/27 16:28 | zfb

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

我正在寻找c#的文章,关于网页提取技术的
2007/11/29 21:38 | Tommy

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

学习了

众里寻他千百度,蓦然回首,好东东尽在万搜谷!
http://www.wansougu.com
2008/6/16 16:43 | 万搜谷

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

学习了
2008/7/9 21:59 | 天地同正

# re: 使用正则表达式提取网页中的有用内容,提取网页中的URL地址,提取网页中的电子邮件E-mail地址

没用。不能提取文章内容的正文部份
2009/3/16 22:17 | 止戈为武

Post Comment

主题  
姓名  
主页
校验码  
内容   
京ICP备 05050892号