怎么爬取新浪微博当前页面的内容

2024-07-20 14:55

1. 怎么爬取新浪微博当前页面的内容

微博这一类的主流网站现在都普遍采用ajax加载数据,也就是如果你通过传统的爬虫方式post一个url或者请求参数过去,接受响应的字符串,也就是响应的html代码,会发现里面没有你要的数据,这是因为这个代码里面有一些js脚本,等到浏览器显示这个网页的时候,这些js就会运行,从而显示你想要看的数据,ajax还用来在你操作的时候不刷新网页,只加载一部分页面数据,如果你发现一个网站在你操作的时候只有页面部分数据在变动,网址不变,就是ajax,这个很容易判断。另外,如果你发现网页浏览器显示网页加载完毕,然后页面上还有一些数据正在加载,这种数据也属于ajax异步加载的。判断好之后,就要采用能处理ajax的方式抓取数据了。
这里有两种方法: 1. 分析ajax脚本,找到对应的加载数据的js脚本,然后分析其逻辑,一般也是生成一个http请求,然后这个http请求一般只返回jason格式的数据。你可以通过代码模拟这个请求来获取数据。但是这种办法比较老土,也很麻烦需要你研究js代码的逻辑,你如果不会写代码就比较麻烦。当然有一些fiddler之类的网页通信抓包分析工具可以帮你一些忙。
2. 使用现在比较主流的智能采集软件如八爪鱼,需要支持浏览器和可视化采集,这样软件会自动模拟人的操作完成所有工作,包括运行界面的脚本,最后你会在界面上看到数据,就和上网看网页没任何区别,但是此类工具可以自动提取你在网页上看到的数据。用鼠标点点就提取到数据了,这种方式适合不懂代码的人。
3. 当然你也可以上网上找一下别人都是怎么采集微博数据的。然后拿别人的劳动成果来用,这个就更简单。比如,我按照你的要求在数多多上搜索微博数据采集规则就出来好多。截图如下:可以看到有微博账号,话题,评论,明星等等,别人也都详细写了如何用这些东西。

怎么爬取新浪微博当前页面的内容

2. 想在自己做的网页里显示新浪微博的某个相关话题的内容,实时同步抓取新发的消息,请问该如何操作,代码?

你网页是什么代码编写的,只需要找个读取新浪微博内容的相关插件就行了。

3. C#如何提取新浪等网站的股票实时动态行情数据?

网站的都是后台系统  是不能够直接提取数据的  而且相对来说网站上的信息并不全面  还是找个顺手的软件做分析和复盘比较好  东方财富金融终端这个信息比较全  但是我用的是中信建投  这个看盘比较清晰。

C#如何提取新浪等网站的股票实时动态行情数据?

4. 请问用C#如何提取新浪等网站的股票实时动态行情数据?

找到一个利用webservice的方法,希望能够帮助你

声明: 这篇文章适合在C#命令行编译器下的开发借鉴,对于已经装了MS.NET的朋友,开发客户端时将会更容易一些,我随后对登出我自己的开发程序,这篇文章为我摘录的.摘录URL:http://www.knowsky.com/2016.html

(一)

    Web Services,即Web服务,是微软.NET战略中非常重要的一个概念。它的目的是将Web站点转变为集组织、应用、服务以及设备于一体的可设计Web站点,使Web站点不再处于被动的地位。

  本文将介绍如何建立和使用一个在.NET 平台上提供股票报价的Web服务。我们将使用Yahoo的一项以CSV(以逗号分隔的值)的格式提供股票报价的免费服务,将其包含在我们的web 服务中。

  注意:这个报价服务例程的运行大约延迟15分钟,只用于教学目的。

  建立Web服务

  下面将采用逐步讲解代码的形式来帮助你理解在.NET 中Web服务的编程模式。我们可以使用notepad等任何文本编辑器来编写 这里的Web服务例程代码,最后将文件存储为StockQuote.asmx。请注意:所有的Web服务文件保存时都使用扩展名 *.asmx。

  <%@ WebService Language="C#" class="DailyStock" %>

代码的第一行定义了一个 Web 服务,使用的语言是C#。class属性用来指示Web服务应该调用和使用的类。如果在Web服务中使用了许多类,那么就应该用这个属性来表明Web服务应该首先调用的类。

  using System ;

  using System.Web.Services ;

  using System.Net ;

  using System.IO ;

  using System.Text ;

以上代码负责引入必要的名称空间。 请记住永远都要引入System.Web.Services这个名称空间。根据类的需要,再引入保留的名称空间。

  public class DailyStock : WebService

   {

    ......

    ....

   }

这里我们将公共类定义为 DailyStock,它扩展了 System.Web.Services.WebService 类。所有想暴露为 Web服务的类都应该扩展System.Web.Services.WebServices类。 另外,Web 服务的存取修饰语永远都是public。

  [WebMethod]

   public string GetQuote(string symbol)

   {

    ........

    ........

   }

以上我们定义了一个公共Web方法 GetQuote。同类的定义一样,Web 方法也都要用 public这个修饰语来声明。 [WebMethod] 属性呈现出将要被用在Web服务中的一些潜在方法,希望客户存取的所有方法都应该用[WebMethod] 属性进行标记。GetQuote方法接受一个字符串输入参数,它包含了使用者所需要的报价符号。这个方法返回一个字符串,其中包含股票报价或错误

  string ret;

   try

    {

     // The Path to the Yahoo Quotes Service

     string fullpath = @"http:// 

     // Create a HttpWebRequest object on the Yahoo url

     HttpWebRequest webreq = (HttpWebRequest)WebRequestFactory.Create(fullpath);

     // Get a HttpWebResponse object from the Yahoo url

     HttpWebResponse webresp = (HttpWebResponse)webreq.GetResponse();

     // Create a StreamReader object and pass the Yahoo Server stream as a parameter

     StreamReader strm = new StreamReader(webresp.GetResponseStream(), Encoding.ASCII);

     // Read a single line from the stream (from the server)

     // We read only a single line, since the Yahoo server returns all the

     // information needed by us in just one line.

     ret= strm.ReadLine();

     // Close the stream to the server and free the resources.

     strm.Close();

    }

   catch(Exception)

   {

    // If exception occurred inform the user

    ret="Exception Occurred" ;

   }

   file://Return the Quote or Exception

   return ret ;

  以上是GetQuote 方法的内容。这里使用一个 try-catch模块来截获从Yahoo中得到股票报价的过程中可能发生的错误。在 try-catch模块内部声明了一个字符串变量,这个变量中保存着获取yahoo服务的完整路径,用户提供的symbol字符串变量被加到这个连接字符串上。

  路径建立好之后,就要从连接字符串中构造一个 HttpWebRequest对象和一个 HttpWebResponse 对象。接着,用StreamReader打开一个到Yahoo

(二)

配置Web服务

  配置Web 服务与一个配置ASP.NET应用程序相同。如果自己有Web服务器,那么就创建一个称为stockquote 的虚拟目录,然后将 StockQuote.asmx复制到这个目录中。如此就完成了Web 服务的配制。要调用Web服务,首先启动浏览器,然后键入Web 服务的路径,如 http://localhost/stockquote/StockQuote.asmx,接着看到的页面就是由Web服务运行时间环境自动生成的结果。在文本框中键入符号,例如AOL 或 MS,再点击invoke按钮,这时就会弹出一个新的窗口,在其中向你显示了Web服务的输出信息。

  使用Web服务

  基本上有两种使用Web 服务的方法。可以通过浏览器直接调用 Web 服务,并按照上面介绍的方法来使用它。或者,也可以在应用程序使用它。下面就看看如何建立一个Web 应用程序和一个控制台应用程序,通过它们来使用Web服务。当然,也可以使用Win Form 应用程序作为替代来使用Web 服务。

  获取服务的描述

  为了与Web服务进行通信,客户应该知道这个Web服务支持哪种方法以及如何与它们进行通信。.NET 上的Web服务自动用SDL(服务描述语言)产生一个 XML格式文档,这样就使客户能够获取与Web服务通信时所需要的信息。 在Web 服务URL之后附加 ?SDL 使Web服务生成客户能够使用的SDL文档。要查阅这里接受的Web 服务的SDL,可以在浏览器中键入http://localhost/stockquote/StockQuote.asmx?SDL。

(三)

构造代理库

  .NET 平台上的应用程序可以使用代理库来调用Web服务上的方法,这样使用Web服务就非常容易。生成代理库的第一步是从SDL中生成一个Web服务的代理类。.NET SDK提供了一个叫做WebServiceUtil.exe的工具,它能够帮助我们生成一个代理类。要生成Web服务的代理类,首先进入命令行环境,然后转到将要开发客户应用程序的那个目录,接着输入以下命令:

  WebServiceUtil /c:proxy /pa:http://localhost/stockquote/StockQuote.asmx?SDL /n:Quotes

以上命令执行后,会在运行这个命令的目录中生成一个 C# 源代码文件,叫做 DailyStock.cs (要记住Web服务类的名称也是 DailyStock,)。现在来看这些自变量的含义:

  l /c:proxy:告诉WebServiceUtil生成一个代理类

  l /pa:http://localhost/stockquote/StockQuote.asmx?SDL:向SDL提供Web服务的路径。如果已经将Web服务的SDL 保存到了硬盘上,我们甚至可以提供SDL文件的本地路径。

  l /n:Quotes:告诉WebServiceUtil将代理类放在 Quotes名称空间。这样做的目的是为了更容易地管理和使用代理库。

  代理库准备好之后,我们使用C# 编译器从上面步骤中刚创建的代理类中生成一个代理库:

  csc /target:library /r:System.dll;System.Web.Services.dll;System.Net.dll;

  System.IO.dll;System.Xml.Serialization.dll DailyStock.cs

生成代理库的时候,我们使用了 /target:library开关以表示想要输出一个库文件。我们还引用一些曾经在Web服务中使用过的集合。编译器将在运行命令所在目录中生成一个名为DailyStock.dll 的dll 库。

(四)

创建 Web应用程序用户

下面创建一个Web应用程序StockConsumer.aspx,它作为这个StockQuote(股票报价) Web服务的第一个用户。

  <%@ Page language="C#" %>

  <%@ Import Namespace="System.Xml" %>

  <%@ Import Namespace="Quotes" %>

  以上引入必要的名称空间。要记住也要引入 Quotes名称空间,它是代理库的名称空间。

  <html>

  <head>

  <script runat=server>

   // Wire up the onClick event for a button

   protected void button1_Click(object sender, EventArgs e)

   {

    file://Create a object of the class DailyStock (the proxy class)

    DailyStock ds = new DailyStock();

    // Call the GetQuote method of the proxy class DailyStock and

    // pass the symbol string from the textbox

    string res = ds.GetQuote(symbol.Text);

    // The returned string has values which are separated

    // by commas.

    // Hence we split the returned string into parts

    char[] splitter = {','} ;

    string[] temp = res.Split(splitter);

    // Check if the string array returned has more than one

    // elements since if there are less than one elements

    // then an exception must have been returned

    if(temp.Length >1)

     {

      // The WebService returns a lot of information about the

      // stock. We only show the relevant portions

      // Set the label to current Index

      curindex.Text = "Current Index :"+temp[1];

      // Set the label to current Date Time

      curdate.Text ="Last Update on"+temp[2]+" at "+temp[3];

     }

    else

     {

      error.Text = "Error :"+res ; file://set the error label

     }

    }

   </script>

以上ASP.NET页面代码中,首先对Web 服务DailyStock进行例示。由于已经生成了代理库,因此Web服务的调用方法与其它任何库的调用方法都相同。调用DailyStock 类的GetQuote()方法后,将返回一个字符串,其中包含了以逗号分隔的列表符号的完整信息。

  我们将限制显示给客户的信息为只显示当前指数和所报告指数的日期/时间。为了将字符串分成若干不同的部分,这里使用了字符串类的Split方法,在出现逗号的地方将字符串分割成部分。并且,将分割开的字符串组成数组之后,再使用相关的数值为Web页面设置不同的标签。

  代码的其余部分

  <body>

  <center>

  <h2>.NET101 Stock Quote Consumer </h2>

  <form runat=server >

   <table border=1 celspacing=1>

    <tr><th>Please enter the symbol below</th></tr>

    <tr><td>

    <asp:textbox id=symbol runat=server />

    <asp:button id=button1 text="Get Quote" onClick="button1_Click" runat=server />

    </td></tr>

    <tr><td><asp:label id=curindex runat=server /></td></tr>

    <tr><td><asp:label id=curdate runat=server /></td></tr>

    <tr><td><asp:label id=error runat=server /></td></tr>

   </table>

  </form>

  </center>

  </body>

  </html>

(五)

小结

  下面总结一下配置Web应用程序的步骤:

  l 创建一个叫做StockConsumer的虚拟目录

  l 将 StockConsumer.aspx 文件复制到这个虚拟目录下

  l 在wwwroot 文件夹中创建一个 bin 虚拟目录

  l 设置bin目录以执行代码的权限

  l 将代理 dll 文件DailyStock.dll复制到这个目录下,ASP.NET 运行时间引擎会自动从Bin目录中选择对外部库的引用。这里的例子中,这个外部库是DailyStock.dll。

  现在调用文件 http://localhost/StockConsumer/StockConsumer.aspx,然后键入股票的符号,点击 "Get Quote"(获取报价)按钮,就能看到正在使用的Web服务了。注意:Web服务应该能够使用yahoo服务器,否则它就会返回一个错误信息。

5. 如何大量抓取新浪微博的数据?

是要抓取微博的文字信息吗?我了解的有一家海沸数据,直接通过设定关键词,就可以抓取相关的数据。还可以筛选,如认证用户的信息,有图片的信息,转发数评论数大于多少的,等等。

如何大量抓取新浪微博的数据?

6. 利用新浪微博搜索功能爬取微博数据的问题

【问题解答】
       由于各种功能都是通过具体的指令实现的,多项指令(命令)组成批处理过程,才能实现“爬取微博的功能, 模拟登录新浪微博,然后利用新浪微博搜索功能搜索微博,当抓取超过30多个搜索结果页面后,页面会提示行为异常,要输入验证码才能继续搜索”,新浪微博完全可以设置判断搜索行为的指令、界面和处理过程等,当与其出现不一致时即可判断为“异常”,并给出提示等信息。

7. 如何用八爪鱼采集器提取新浪微博的数据

如果你是新手的话建议你到官网看看入门的教程视频,包括那个登陆采集的教程。
如果不想自己研究的话可以到数多多网站购买采集规则,可以选择定制,或者数据量大的话直接找官方的定制采集也可以。
需要登录账号的网站如何操作
如下登陆的网页采集规则设置可以参考以为两个教程:
1)单个文本及输入登陆教程地址:http://www.bazhuayu.com/tutorial/dgwbhdl.aspx?t=0
2)Cookie登陆教程地址:http://www.bazhuayu.com/tutorial/cookdl.aspx?t=0
八爪鱼基础配置问题,请先学习新手教程1-7 http://www.bazhuayu.com/tutorial

如何用八爪鱼采集器提取新浪微博的数据

8. 如何提取多极网页文字,举个例子:新浪主页上的所有文字及子网页上及最末级网页下的所有文字

在网页`上的菜单栏.文件-另存为