- PageMapper<T> - us.codecraft.webmagic.model中的类
-
- PageMapper(Class<T>) - 类 的构造器us.codecraft.webmagic.model.PageMapper
-
- PageModelPipeline<T> - us.codecraft.webmagic.pipeline中的接口
-
Implements PageModelPipeline to persistent your page model.
- pattern - 类 中的变量us.codecraft.webmagic.handler.PatternRequestMatcher
-
match pattern. only matched page should be handled.
- PatternProcessor - us.codecraft.webmagic.handler中的类
-
- PatternProcessor(String) - 类 的构造器us.codecraft.webmagic.handler.PatternProcessor
-
- PatternProcessorExample - us.codecraft.webmagic.example中的类
-
Created with IntelliJ IDEA.
- PatternProcessorExample() - 类 的构造器us.codecraft.webmagic.example.PatternProcessorExample
-
- PatternRequestMatcher - us.codecraft.webmagic.handler中的类
-
Created with IntelliJ IDEA.
- PatternRequestMatcher(String) - 类 的构造器us.codecraft.webmagic.handler.PatternRequestMatcher
-
- PhantomJSDownloader - us.codecraft.webmagic.downloader中的类
-
this downloader is used to download pages which need to render the javascript
- PhantomJSDownloader() - 类 的构造器us.codecraft.webmagic.downloader.PhantomJSDownloader
-
- PhantomJSDownloader(String) - 类 的构造器us.codecraft.webmagic.downloader.PhantomJSDownloader
-
添加新的构造函数,支持phantomjs自定义命令
example:
phantomjs.exe 支持windows环境
phantomjs --ignore-ssl-errors=yes 忽略抓取地址是https时的一些错误
/usr/local/bin/phantomjs 命令的绝对路径,避免因系统环境变量引起的IOException
- PhantomJSDownloader(String, String) - 类 的构造器us.codecraft.webmagic.downloader.PhantomJSDownloader
-
新增构造函数,支持crawl.js路径自定义,因为当其他项目依赖此jar包时,runtime.exec()执行phantomjs命令时无使用法jar包中的crawl.js
crawl.js start --
var system = require('system');
var url = system.args[1];
var page = require('webpage').create();
page.settings.loadImages = false;
page.settings.resourceTimeout = 5000;
page.open(url, function (status) {
if (status !
- poll(Task) - 类 中的方法us.codecraft.webmagic.scheduler.FileCacheQueueScheduler
-
- poll(Task) - 类 中的方法us.codecraft.webmagic.scheduler.RedisPriorityScheduler
-
- poll(Task) - 类 中的方法us.codecraft.webmagic.scheduler.RedisScheduler
-
- pool - 类 中的变量us.codecraft.webmagic.scheduler.RedisScheduler
-
- process(Page) - 类 中的方法us.codecraft.webmagic.configurable.ConfigurablePageProcessor
-
- process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.downloader.FileCache
-
- process(Page) - 类 中的方法us.codecraft.webmagic.downloader.FileCache
-
- process(Page) - 类 中的方法us.codecraft.webmagic.example.GithubRepoPageMapper
-
- process(Page) - 类 中的方法us.codecraft.webmagic.handler.CompositePageProcessor
-
- process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.handler.CompositePipeline
-
- process(Object, Task) - 类 中的方法us.codecraft.webmagic.model.ConsolePageModelPipeline
-
- process(T, Task) - 类 中的方法us.codecraft.webmagic.pipeline.CollectorPageModelPipeline
-
- process(Object, Task) - 类 中的方法us.codecraft.webmagic.pipeline.FilePageModelPipeline
-
- process(Object, Task) - 类 中的方法us.codecraft.webmagic.pipeline.JsonFilePageModelPipeline
-
- process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.pipeline.JsonFilePipeline
-
- process(ResultItems, Task) - 类 中的方法us.codecraft.webmagic.pipeline.MultiPagePipeline
-
- process(T, Task) - 接口 中的方法us.codecraft.webmagic.pipeline.PageModelPipeline
-
- processPage(Page) - 接口 中的方法us.codecraft.webmagic.handler.SubPageProcessor
-
process the page, extract urls to fetch, extract the data and store
- processResult(ResultItems, Task) - 接口 中的方法us.codecraft.webmagic.handler.SubPipeline
-
process the page, extract urls to fetch, extract the data and store
- pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.FileCacheQueueScheduler
-
- pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.RedisPriorityScheduler
-
- pushWhenNoDuplicate(Request, Task) - 类 中的方法us.codecraft.webmagic.scheduler.RedisScheduler
-
- put(Class<? extends ObjectFormatter>) - 类 中的静态方法us.codecraft.webmagic.model.formatter.ObjectFormatters
-
- put(K1, Map<K2, V>) - 类 中的方法us.codecraft.webmagic.utils.DoubleKeyMap
-
- put(K1, K2, V) - 类 中的方法us.codecraft.webmagic.utils.DoubleKeyMap
-