贺巩山的博客

没有伞的孩子更要努力奔跑


  • 首页

  • 文件系统

  • Linux运维

  • 剑指Offer

  • LeetCode题解

  • PAT甲级题解

  • PAT乙级题解

  • CCF CSP题解

  • 分类

  • 标签

  • 归档

  • 书单

  • 关于

  • 搜索

java网络爬虫之HttpURLConnection实战

发表于 2018-05-21 | 更新于 2018-05-21 | 分类于 网络爬虫
字数统计: 722

在开始写爬虫之前,我们先来总结一下用HttpURLConnection写爬虫的操作步骤:

1.实例化一个URL,调用URL类的openConnection()方法获得URLConnection对象,并强转为HttpURLConnection对象

1
2
URL url = new URL("http://host/path");
HttpURLConnection connection = (HttpURLConnection) url.openConnection();

2.设置连接的请求属性,诸如,setRequestProperty、setConnectionTimeout、setReadTimeout等

3.调用connect()方法连接远程资源

1
connection.connect();

4.访问资源数据。使用getInputStream方法获取一个输入流用以读取信息。如果服务器端出现错误,调用getErrorStream()方法获取错误信息。

1
2
3
4
5
try{
connection.getInputStream();
} catch(Exception e) {
connection.getErrorStream();
}

5.调用disconnect()关闭连接

1
connection.disconnect();

6.解析需要的数据。

阅读全文 »

Java网络爬虫之详解HttpURLConnection

发表于 2018-05-21 | 更新于 2018-05-21 | 分类于 网络爬虫
字数统计: 630

在Java.net包下有一个类HttpURLConnection,其继承结构如下:

1
public abstract class HttpURLConnection extends URLConnection

它的父类URLConnection也是一个抽象类。要想取得URLConnection对象,只能通过java.net.URL下的如下方法:

1
2
public URLConnection openConnection() throws java.io.IOException;
public URLConnection openConnection(Proxy proxy) throws java.io.IOException;
阅读全文 »

Windows下搭建nginx和tomcat整合开发环境

发表于 2018-05-19 | 更新于 2018-05-19 | 分类于 nginx
字数统计: 1.3k

遇到的问题越多,人成长的越快。算下日子,接手课题组的项目,已经一月有余。期间碰到了很多问题,也一直在积极面对。

问题引出

接手课题组的项目后,遇到过一个很严重的问题:项目在本地tomcat上能完美运行,但是到了服务器上,就出问题了——JSP文件中el表达式${pageContext.request.contextPath}取到的上下文路径始终为空,即***“”。由于之前深受项目必须使用绝对路径这一思想的影响,我在JSP文件中定义了如下变量,用来表示外部js文件中的ajax请求地址的前缀。

1
2
3
<script src="text/javascript">
var contextPath = "${pageContext.request.contextPath}";
</script>
阅读全文 »

SQL模糊查询并高亮显示查询结果

发表于 2018-05-14 | 更新于 2018-05-16 | 分类于 sql
字数统计: 610

最近在完善课题组的项目时,遇到了一个问题:项目有个论坛模块,需要实现根据用户输入的关键字检索论坛文章,然后高亮显示检索结果。

本来遇到这个需求,第一反应是用lucene来做全文检索。但是,lucene只是一个全文检索工具包,要用它实现全文检索,需要写一大堆的代码,加之虽然之前用过几次lucene,但是对lucene的API还是不太熟。想想还是算了,等以后专门研究一下lucene再说吧。

有朋友可能要问了:为什么不用solr或者elasticsearch?还不是因为不熟,再说了,一个solr一百多兆,我这就是个小项目,没必要啊。思来想去,最后还是决定就用sql的模糊查询like实现。

阅读全文 »

正则表达式及Java对其的支持

发表于 2018-04-11 | 更新于 2018-04-11 | 分类于 正则表达式
字数统计: 1.4k

简述正则表达式

​ 今天我们来讲下正则表达式,先来看下正则表达式中的数量表示

字符 说明 举例
? 零次或一次匹配?前的字符或子表达式,等价于{0,1} gong(shan)?匹配gong或gongshan
* 零次或多次匹配*前的字符或子表达式,等价于{0,} sm*匹配sm或者s
+ 一次或多次匹配*前的字符或子表达式,等价于{1,} zoo+匹配zoo或者zooo等
{n} n为非负整数,正好匹配n次 zo{2}匹配zoo
{n,} n为非负整数,至少匹配n次 zo{1,}可匹配zo,zoo,zooo等
{n,m} n和m均为非负整数,表示至少匹配n次,至多匹配m次 zo{1,2}则只匹配zo或者zoo
阅读全文 »

Java集合框架源码阅读之栈Stack

发表于 2018-04-02 | 更新于 2018-04-02 | 分类于 java
字数统计: 1.5k

什么是栈?
栈是限制插入和删除只能在一个位置上进行的表,它是一个后进先出(last-in-first-out,LIFO)表

本文是《Java集合框架源码阅读》系列的第三篇,我们来说说Java中的栈
在Java Collections API中有一个类叫做java.util.Stack,它的继承结构如下:

1
public class Stack<E> extends Vector<E>

它是在java.util.Vector类的基础上扩展了5个方法而来的

1
2
3
4
5
public E push(E item)//进栈
public synchronized E pop()//出栈,返回栈顶元素并将其删除
public synchronized E peek()//取得栈顶元素(不删除)
public boolean empty()//判断是否为空栈
public synchronized int search(Object o)//详见问题四

阅读全文 »

Java集合框架源码阅读之双链表LinkedList

发表于 2018-04-01 | 更新于 2018-04-01 | 分类于 java
字数统计: 1.2k

本文只分析LinkedList的增(add) 删(remove) 改(set) 查(get)的实现,剩余的部分留给读者自己去浏览吧

本文是《Java集合框架源码阅读》系列的第二篇,我们的主角是java.util.LinkedList
老规矩,先看LinkedList继承结构

1
2
3
public class LinkedList<E>
extends AbstractSequentialList<E>
implements List<E>, Deque<E>, Cloneable, java.io.Serializable

阅读全文 »

Java集合框架源码阅读之顺序表ArrayList

发表于 2018-03-30 | 更新于 2018-03-30 | 分类于 java
字数统计: 1.1k

今天是《Java集合框架源码阅读》的第一篇,我们来讲讲Java中的顺序表ArrayList
首先来看下ArrayList的继承结构

1
2
public class ArrayList<E> extends AbstractList<E>
implements List<E>, RandomAccess, Cloneable, java.io.Serializable

阅读全文 »

Java集合类之列表List

发表于 2018-03-29 | 更新于 2020-04-18 | 分类于 java
字数统计: 256

List是一种有序且允许重复的集合。

阅读全文 »

从阿里云服务器到使用github pages的变迁

发表于 2018-03-24 | 更新于 2019-01-19 | 分类于 生活
字数统计: 201

    从2016年5月20号晚上注册了域名 http://www.hegongshan.com ,一直到2017年9月,我在阿里云上租用了一年多的云服务器。由于那时候是新手,所以保守的选择了windows server,而且是最低档的配置——1核1G内存20G磁盘,每个月80多,没办法,谁叫咱穷。

阅读全文 »
1…4849
Gongshan He

Gongshan He

490 日志
62 分类
89 标签
GitHub 微博 知乎 Linkedin E-Mail
友情链接
  • 卢明冬的博客
  • lipixun
  • 柳婼 の blog
  • 心灵港
  • Liudeyin
© 2016 — 2023 Gongshan He
访问人数 总访问量 次